위키

포럼

도구

아파치 하둡

Jmnote (토론 | 기여)님의 2013년 2월 21일 (목) 11:06 판

(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

2018-05-07

편집

역링크

토론

하둡

Apache Hadoop; Hadoop
아파치 하둡; 하둡

1 개요

빅 데이터 처리 프레임워크
대용량 데이터 처리 분석을 위한 분산 컴퓨팅 지원 프레임워크
분산파일시스템 + 분산처리시스템
분산 저장 + 분산 처리
HDFS + 맵리듀스^[1]
여러 개의 컴퓨터를 하나로 묶어 저장 공간과 계산 능력 향상

하드웨어 비용 절감 가능^[2]

오픈 소스
보통 리눅스 기반^[3]

<img src='http://upload.wikimedia.org/wikipedia/en/8/8a/Hadoop-logo.jpg' style='width:250px' />

2 장점

부하 분산
대용량 파일 저장 가능(HDFS)
장비 추가시 성능이 선형적으로 향상
저비용(오픈소스, 리눅스 활용)

3 아키텍처

맵리듀스 아키텍처 문서를 참고하십시오.

<img src='http://upload.wikimedia.org/wikipedia/en/2/2b/Hadoop_1.png' style='width:400px' />

4 기타

너치에서 파생^[4]
HDFS는 매우 안정적이며 온라인 처리 가능.^[5] 국내 하둡 활용사례들은 대부분 하둡의 일부인 HDFS만을 활용하는 경우가 대부분

5 다른 소프트웨어 연동

하둡이 설치된 서버에 하둡과 연동되는 다른 소프트웨어들을 함께 설치하여 사용하는 경우가 많다.

연동사례

<img src='http://cfile23.uf.tistory.com/image/20584B464F6296D728A31C' />

6 같이 보기

7 주석

↑ 최초 접근시에는 2가지를 분리하여 생각할 필요가 있음. HDFS는 상당히 안정적인 일종의 스토리지.
↑ 고성능 서버는 필요 이상으로 비싸다...
↑ 물론 MS에서 윈도우 기반 하둡을 제공한다.
↑ 보다 정확하게는 웹크롤링 목적으로 이용되던 너치에서 대용량 데이터 저장용 파일시스템이 필요했기 때문에 HDFS가 만들어짐
↑ 반면 맵리듀스는 온라인 처리 불가.

8 참고 자료

http://en.wikipedia.org/wiki/Apache_Hadoop

원본 주소 "https://zetawiki.com/w/index.php?title=아파치_하둡&oldid=27448"

하둡

수정 2018-05-07 생성 2012-12-18

편집자

문서 댓글 ({{ doc_comments.length }})

{{ comment.name }} {{ comment.created | snstime }}

분류 댓글:
{{cat.name.replace(/_/g,' ')}} ({{cat.cnt}})

{{comment.page_title}}
― {{comment.name}}

CC-BY-SA 3.0 · Powered by MediaWiki

개인정보처리방침 · ABOUT