한국어 말뭉치 모음

1 개요[ | ]

한국어 말뭉치 자료, 한국어 코퍼스 자료, 한국어 말뭉치 모음, 한국어 코퍼스 모음
한국어 데이터셋 모음, 한국어 텍스트 데이터

2 목록[ | ]

파일	유형	용량	비고
Chatbot_data^[1]
ChatbotData .csv	csv	1 MB
AI허브 AI데이터
국립국어원 언어정보나눔터
NSMC v1.0^[2]
ratings.txt	txt	19 MB	네이버 영화 말뭉치 학습/테스트셋
ratings_test.txt	txt	5 MB	네이버 영화 말뭉치 테스트셋
ratings_train.txt	txt	14 MB	네이버 영화 말뭉치 학습셋
KorQuAD^[3]
KorQuAD_v1.0_dev.json	json	4 MB	데브 데이터셋
KorQuAD_v1.0_train.json	json	37 MB	학습 데이터셋
한국어 위키백과 덤프
kowiki-latest-pages-articles.xml.bz2	xml.bz2	642 MB
ratsgo 전처리 데이터
processed_wiki_ko.txt	txt	940 MB	한국어 위키백과
corrected_ratings_corpus.txt	txt	17 MB	띄어쓰기 교정(soynlp)한 네이버 영화 말뭉치 (레이블 없음)
corrected_ratings_test.txt	txt	4 MB	띄어쓰기 교정(soynlp)한 네이버 영화 말뭉치 테스트셋 (레이블 없음)
corrected_ratings_train.txt	txt	14 MB	띄어쓰기 교정(soynlp)한 네이버 영화 말뭉치 학습셋 (레이블 있음)
processed_korquad.txt	txt	19 MB	KorQuAD 학습/데브셋
processed_ratings.txt	txt	17 MB	네이버 영화 말뭉치 학습/테스트셋 (극성 레이블 없음)
processed_ratings_test.txt	txt	4 MB	네이버 영화 말뭉치 테스트셋 (극성 레이블 있음)
processed_ratings_train.txt	txt	14 MB	네이버 영화 말뭉치 학습셋 (극성 레이블 있음)
processed_review_movieid.txt	txt	66 MB	네이버 영화 말뭉치 전체 데이터셋 (영화 ID 포함)
soyword.model	model	19 MB	네이버 영화 말뭉치로 학습한 soynlp 형태소 분석 모델
space-correct.model	model	3 MB	네이버 영화 말뭉치로 학습한 띄어쓰기 교정(soynlp) 모델

3 같이 보기[ | ]

4 참고[ | ]

↑ 채팅 대화
↑ Naver sentiment movie corpus v1.0 네이버 영화리뷰 https://www.lucypark.kr/docs/2015-pyconkr/#39
↑ The Korean Question Answering Dataset

[1] 채팅 대화

[2] Naver sentiment movie corpus v1.0 네이버 영화리뷰 https://www.lucypark.kr/docs/2015-pyconkr/#39

[3] The Korean Question Answering Dataset

[1]

[2]

[3]