한국어 말뭉치 모음

Jmnote (토론 | 기여)님의 2020년 4월 24일 (금) 00:38 판 (→‎목록)

1 개요

한국어 말뭉치 자료, 한국어 코퍼스 자료, 한국어 말뭉치 모음, 한국어 코퍼스 모음
한국어 데이터셋 모음

2 목록

파일 유형 용량 비고
Chatbot_data[1]
ChatbotData .csv csv 1 MB
AI허브 AI데이터
국립국어원 언어정보나눔터
NSMC v1.0[2]
ratings.txt txt 19 MB 네이버 영화 말뭉치 학습/테스트셋
ratings_test.txt txt 5 MB 네이버 영화 말뭉치 테스트셋
ratings_train.txt txt 14 MB 네이버 영화 말뭉치 학습셋
KorQuAD[3]
KorQuAD_v1.0_dev.json json 4 MB 데브 데이터셋
KorQuAD_v1.0_train.json json 37 MB 학습 데이터셋
한국어 위키백과 덤프
kowiki-latest-pages-articles.xml.bz2 xml.bz2 642 MB
ratsgo 전처리 데이터
processed_wiki_ko.txt txt 940 MB 한국어 위키백과
corrected_ratings_corpus.txt txt 17 MB 띄어쓰기 교정(soynlp)한 네이버 영화 말뭉치 (레이블 없음)
corrected_ratings_test.txt txt 4 MB 띄어쓰기 교정(soynlp)한 네이버 영화 말뭉치 테스트셋 (레이블 없음)
corrected_ratings_train.txt txt 14 MB 띄어쓰기 교정(soynlp)한 네이버 영화 말뭉치 학습셋 (레이블 있음)
processed_korquad.txt txt 19 MB KorQuAD 학습/데브셋
processed_ratings.txt txt 17 MB 네이버 영화 말뭉치 학습/테스트셋 (극성 레이블 없음)
processed_ratings_test.txt txt 4 MB 네이버 영화 말뭉치 테스트셋 (극성 레이블 있음)
processed_ratings_train.txt txt 14 MB 네이버 영화 말뭉치 학습셋 (극성 레이블 있음)
processed_review_movieid.txt txt 66 MB 네이버 영화 말뭉치 전체 데이터셋 (영화 ID 포함)
soyword.model model 19 MB 네이버 영화 말뭉치로 학습한 soynlp 형태소 분석 모델
space-correct.model model 3 MB 네이버 영화 말뭉치로 학습한 띄어쓰기 교정(soynlp) 모델

3 같이 보기

4 참고

  1. 채팅 대화
  2. Naver sentiment movie corpus v1.0 네이버 영화리뷰 https://www.lucypark.kr/docs/2015-pyconkr/#39
  3. The Korean Question Answering Dataset
문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}