1 개요[ | ]
- 한국어 말뭉치 자료, 한국어 코퍼스 자료, 한국어 말뭉치 모음, 한국어 코퍼스 모음
- 한국어 데이터셋 모음, 한국어 텍스트 데이터
2 목록[ | ]
파일 | 유형 | 용량 | 비고 |
---|---|---|---|
Chatbot_data[1] | |||
ChatbotData .csv | csv | 1 MB | |
AI허브 AI데이터 | |||
국립국어원 언어정보나눔터 | |||
NSMC v1.0[2] | |||
ratings.txt | txt | 19 MB | 네이버 영화 말뭉치 학습/테스트셋 |
ratings_test.txt | txt | 5 MB | 네이버 영화 말뭉치 테스트셋 |
ratings_train.txt | txt | 14 MB | 네이버 영화 말뭉치 학습셋 |
KorQuAD[3] | |||
KorQuAD_v1.0_dev.json | json | 4 MB | 데브 데이터셋 |
KorQuAD_v1.0_train.json | json | 37 MB | 학습 데이터셋 |
한국어 위키백과 덤프 | |||
kowiki-latest-pages-articles.xml.bz2 | xml.bz2 | 642 MB | |
ratsgo 전처리 데이터 | |||
processed_wiki_ko.txt | txt | 940 MB | 한국어 위키백과 |
corrected_ratings_corpus.txt | txt | 17 MB | 띄어쓰기 교정(soynlp)한 네이버 영화 말뭉치 (레이블 없음) |
corrected_ratings_test.txt | txt | 4 MB | 띄어쓰기 교정(soynlp)한 네이버 영화 말뭉치 테스트셋 (레이블 없음) |
corrected_ratings_train.txt | txt | 14 MB | 띄어쓰기 교정(soynlp)한 네이버 영화 말뭉치 학습셋 (레이블 있음) |
processed_korquad.txt | txt | 19 MB | KorQuAD 학습/데브셋 |
processed_ratings.txt | txt | 17 MB | 네이버 영화 말뭉치 학습/테스트셋 (극성 레이블 없음) |
processed_ratings_test.txt | txt | 4 MB | 네이버 영화 말뭉치 테스트셋 (극성 레이블 있음) |
processed_ratings_train.txt | txt | 14 MB | 네이버 영화 말뭉치 학습셋 (극성 레이블 있음) |
processed_review_movieid.txt | txt | 66 MB | 네이버 영화 말뭉치 전체 데이터셋 (영화 ID 포함) |
soyword.model | model | 19 MB | 네이버 영화 말뭉치로 학습한 soynlp 형태소 분석 모델 |
space-correct.model | model | 3 MB | 네이버 영화 말뭉치로 학습한 띄어쓰기 교정(soynlp) 모델 |
3 같이 보기[ | ]
4 참고[ | ]
- ↑ 채팅 대화
- ↑ Naver sentiment movie corpus v1.0 네이버 영화리뷰 https://www.lucypark.kr/docs/2015-pyconkr/#39
- ↑ The Korean Question Answering Dataset
편집자 Jmnote 58.103.3.15
로그인하시면 댓글을 쓸 수 있습니다.