"아파치 하둡"의 두 판 사이의 차이

 
(사용자 3명의 중간 판 32개는 보이지 않습니다)
1번째 줄: 1번째 줄:
==개요==
;Apache Hadoop; Hadoop
;Apache Hadoop; Hadoop
;아파치 하둡; 하둡
;아파치 하둡; 하둡, 허둡 /həˈduːp/
 
==개요==
*[[빅 데이터]] 처리 프레임워크
*[[빅 데이터]] 처리 프레임워크
*대용량 데이터 처리 분석을 위한 분산 컴퓨팅 지원 프레임워크
*대용량 데이터 처리 분석을 위한 분산 컴퓨팅 지원 프레임워크
*분산파일시스템 + 분산처리시스템
*분산파일시스템 + 분산처리시스템
*분산 저장 + 분산 처리
*분산 저장 + 분산 처리
*[[HDFS]] + [[맵리듀스]]
*[[HDFS]] + [[맵리듀스]]<ref>최초 접근시에는 2가지를 분리하여 생각할 필요가 있음. HDFS는 상당히 안정적인 일종의 스토리지.</ref>
*여러 개의 컴퓨터를 하나로 묶어 저장 공간과 계산 능력 향상
*여러 개의 컴퓨터를 하나로 묶어 저장 공간과 계산 능력 향상
:하드웨어 비용 절감 가능<ref>고성능 서버는 필요 이상으로 비싸다...</ref>
:하드웨어 비용 절감 가능<ref>고성능 서버는 필요 이상으로 비싸다...</ref>
*오픈 소스
*오픈 소스
*보통 리눅스 기반<ref>물론 MS에서 윈도우 기반 하둡을 제공한다.</ref>
*보통 리눅스 기반<ref>물론 MS에서 윈도우 기반 하둡을 제공한다. http://www.microsoft.com/en-us/sqlserver/solutions-technologies/business-intelligence/big-data.aspx</ref>
 
<img src='http://upload.wikimedia.org/wikipedia/en/8/8a/Hadoop-logo.jpg' style='width:250px' />
https://upload.wikimedia.org/wikipedia/commons/thumb/0/0e/Hadoop_logo.svg/360px-Hadoop_logo.svg.png


==장점==
==장점==
21번째 줄: 20번째 줄:
*저비용(오픈소스, 리눅스 활용)
*저비용(오픈소스, 리눅스 활용)


==구성요소==
==다른 소프트웨어 연동==
<img src='http://cfile23.uf.tistory.com/image/20584B464F6296D728A31C' />
{{참조|하둡 연동 사례}}
 
하둡이 설치된 서버에 하둡과 연동되는 다른 소프트웨어들을 함께 설치하여 사용하는 경우가 많다.
==아키텍처==
;연동사례
<img src='http://upload.wikimedia.org/wikipedia/en/2/2b/Hadoop_1.png' style='width:400px' />
http://siliconangle.com/files/2011/11/HDP.png
 
==기타==
*[[너치]]에서 파생<ref>보다 정확하게는 웹크롤링 목적으로 이용되던 너치에서 대용량 데이터 저장용 파일시스템이 필요했기 때문에 HDFS가 만들어짐</ref>
*HDFS는 매우 안정적이며 온라인 처리 가능.<ref>반면 맵리듀스는 온라인 처리 불가.</ref> 국내 하둡 활용사례들은 대부분 하둡의 일부인 HDFS만을 활용하는 경우가 대부분


==같이 보기==
==같이 보기==
*[[하둡 아키텍처]]
*[[하둡 YARN]]
*[[하둡 설치]]
*[[HDFS]]
*[[HDFS]]
*[[빅 데이터]]
*[[빅 데이터]]
*[[너치]]
*[[너치]]
*[[HBase]]
*[[HBase]]
*[[Hive]]
*[[Sqoop]]
*[[CDH]]
*[[클라우데라 Hue]]


==주석==
==참고==
<references/>
* {{위키백과}}
 
* {{영어위키백과|Apache_Hadoop}}
==참고 자료==
*http://navercast.naver.com/contents.nhn?rid=122&contents_id=44732
*http://en.wikipedia.org/wiki/Apache_Hadoop


[[분류: 하둡]]
[[분류: 하둡]]

2018년 8월 13일 (월) 17:28 기준 최신판

1 개요[ | ]

Apache Hadoop; Hadoop
아파치 하둡; 하둡, 허둡 /həˈduːp/
  • 빅 데이터 처리 프레임워크
  • 대용량 데이터 처리 분석을 위한 분산 컴퓨팅 지원 프레임워크
  • 분산파일시스템 + 분산처리시스템
  • 분산 저장 + 분산 처리
  • HDFS + 맵리듀스[1]
  • 여러 개의 컴퓨터를 하나로 묶어 저장 공간과 계산 능력 향상
하드웨어 비용 절감 가능[2]
  • 오픈 소스
  • 보통 리눅스 기반[3]

 

2 장점[ | ]

  • 부하 분산
  • 대용량 파일 저장 가능(HDFS)
  • 장비 추가시 성능이 선형적으로 향상
  • 저비용(오픈소스, 리눅스 활용)

3 다른 소프트웨어 연동[ | ]

이 부분에 대해 더 많은 내용을 읽으려면 하둡 연동 사례 문서를 참조해 주세요.

하둡이 설치된 서버에 하둡과 연동되는 다른 소프트웨어들을 함께 설치하여 사용하는 경우가 많다.

연동사례

 

4 같이 보기[ | ]

5 참고[ | ]

  1. 최초 접근시에는 2가지를 분리하여 생각할 필요가 있음. HDFS는 상당히 안정적인 일종의 스토리지.
  2. 고성능 서버는 필요 이상으로 비싸다...
  3. 물론 MS에서 윈도우 기반 하둡을 제공한다. http://www.microsoft.com/en-us/sqlserver/solutions-technologies/business-intelligence/big-data.aspx
문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}