아파치 하둡

Jmnote (토론 | 기여)님의 2013년 2월 21일 (목) 11:06 판
Apache Hadoop; Hadoop
아파치 하둡; 하둡

1 개요

  • 빅 데이터 처리 프레임워크
  • 대용량 데이터 처리 분석을 위한 분산 컴퓨팅 지원 프레임워크
  • 분산파일시스템 + 분산처리시스템
  • 분산 저장 + 분산 처리
  • HDFS + 맵리듀스[1]
  • 여러 개의 컴퓨터를 하나로 묶어 저장 공간과 계산 능력 향상
하드웨어 비용 절감 가능[2]
  • 오픈 소스
  • 보통 리눅스 기반[3]

<img src='http://upload.wikimedia.org/wikipedia/en/8/8a/Hadoop-logo.jpg' style='width:250px' />

2 장점

  • 부하 분산
  • 대용량 파일 저장 가능(HDFS)
  • 장비 추가시 성능이 선형적으로 향상
  • 저비용(오픈소스, 리눅스 활용)

3 아키텍처

<img src='http://upload.wikimedia.org/wikipedia/en/2/2b/Hadoop_1.png' style='width:400px' />

4 기타

  • 너치에서 파생[4]
  • HDFS는 매우 안정적이며 온라인 처리 가능.[5] 국내 하둡 활용사례들은 대부분 하둡의 일부인 HDFS만을 활용하는 경우가 대부분

5 다른 소프트웨어 연동

하둡이 설치된 서버에 하둡과 연동되는 다른 소프트웨어들을 함께 설치하여 사용하는 경우가 많다.

연동사례

<img src='http://cfile23.uf.tistory.com/image/20584B464F6296D728A31C' />

6 같이 보기

7 주석

  1. 최초 접근시에는 2가지를 분리하여 생각할 필요가 있음. HDFS는 상당히 안정적인 일종의 스토리지.
  2. 고성능 서버는 필요 이상으로 비싸다...
  3. 물론 MS에서 윈도우 기반 하둡을 제공한다.
  4. 보다 정확하게는 웹크롤링 목적으로 이용되던 너치에서 대용량 데이터 저장용 파일시스템이 필요했기 때문에 HDFS가 만들어짐
  5. 반면 맵리듀스는 온라인 처리 불가.

8 참고 자료

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}