아파치 하둡

Jmnote (토론 | 기여)님의 2013년 2월 20일 (수) 13:15 판
Apache Hadoop; Hadoop
아파치 하둡; 하둡

1 개요

  • 빅 데이터 처리 프레임워크
  • 대용량 데이터 처리 분석을 위한 분산 컴퓨팅 지원 프레임워크
  • 분산파일시스템 + 분산처리시스템
  • 분산 저장 + 분산 처리
  • HDFS + 맵리듀스
  • 여러 개의 컴퓨터를 하나로 묶어 저장 공간과 계산 능력 향상
하드웨어 비용 절감 가능[1]
  • 오픈 소스

<img src='http://upload.wikimedia.org/wikipedia/en/8/8a/Hadoop-logo.jpg' style='width:250px' />

2 장점

  • 부하 분산
  • 대용량 파일 저장 가능(HDFS)
  • 장비 추가시 성능이 선형적으로 향상
  • 저비용(오픈소스, 리눅스 활용)

3 구성요소

<img src='http://cfile23.uf.tistory.com/image/20584B464F6296D728A31C' />

4 아키텍처

<img src='http://upload.wikimedia.org/wikipedia/en/2/2b/Hadoop_1.png' style='width:400px' />

5 기타

  • 너치에서 파생[2]
  • HDFS는 매우 안정적이며 온라인 처리 가능.[3] 국내 하둡 활용사례들은 대부분 하둡의 일부인 HDFS만을 활용하는 경우가 대부분

6 같이 보기

7 주석

  1. 고성능 서버는 필요 이상으로 비싸다...
  2. 보다 정확하게는 웹크롤링 목적으로 이용되던 너치에서 대용량 데이터 저장용 파일시스템이 필요했기 때문에 HDFS가 만들어짐
  3. 반면 맵리듀스는 온라인 처리 불가.

8 참고 자료

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}