"하둡분산파일시스템 HDFS"의 두 판 사이의 차이

잔글 (→‎개요)
6번째 줄: 6번째 줄:
*하둡 네트워크에 연결된 기기에 데이터를 분산 저장
*하둡 네트워크에 연결된 기기에 데이터를 분산 저장
*노드 클러스터(개별 컴퓨터)에 분산 저장
*노드 클러스터(개별 컴퓨터)에 분산 저장
*블럭 크기: 64MB
*블럭 크기: 64MB 또는 128MB
*블럭 복사본을 분산 저장
*블럭 복사본을 분산 저장
:목적: 데이터 유실 방지<ref>일부 노드가 고장나더라도 다른 노드에 있는 복사본 데이터 사용 가능</ref>, 부하 분산
:목적: 데이터 유실 방지<ref>일부 노드가 고장나더라도 다른 노드에 있는 복사본 데이터 사용 가능</ref>, 부하 분산

2013년 2월 20일 (수) 13:49 판

1 개요

Hadoop Distributed File System; HDFS
하둡분산파일시스템, 하둡 분산형 파일 시스템
  • 하둡의 구성요소 중 하나[1]
  • 분산형 파일시스템
  • 하둡 네트워크에 연결된 기기에 데이터를 분산 저장
  • 노드 클러스터(개별 컴퓨터)에 분산 저장
  • 블럭 크기: 64MB 또는 128MB
  • 블럭 복사본을 분산 저장
목적: 데이터 유실 방지[2], 부하 분산
  • 대략 RDBMS의 4배 용량 필요[3]

2 노드

  • Client
  • Namenode: 마스터 서버. 데이터노드 전체를 관리함
  • Datanodes: 데이터 저장되는 서버. 최대 약 4000대까지 가능[4]

3 특징

  • Read, Write 가능
  • Modify 불가, Append 금지

4 같이 보기

5 주석

  1. 하둡의 파일시스템으로 반드시 HDFS만 사용가능한 것은 아님. 그렇지만 국내 하둡 활용사례의 핵심은 HDFS!
  2. 일부 노드가 고장나더라도 다른 노드에 있는 복사본 데이터 사용 가능
  3. 복사본+메타데이터. 대충 단순 계산법
  4. 2013년 초 기준. 설계의 문제가 아니라 인프라의 문제. 네트워크 대역폭을 많이 필요로 하기 때문에 네트워크 장비가 뒷받침되어야 함.
문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}