| 파일 |
유형 |
용량 |
비고
|
| Chatbot_data[1]
|
| ChatbotData .csv |
csv
|
1 MB |
|
| AI허브 AI데이터
|
| 국립국어원 언어정보나눔터
|
| NSMC v1.0[2]
|
| ratings.txt |
txt
|
19 MB |
네이버 영화 말뭉치 학습/테스트셋
|
| ratings_test.txt |
txt
|
5 MB |
네이버 영화 말뭉치 테스트셋
|
| ratings_train.txt |
txt
|
14 MB |
네이버 영화 말뭉치 학습셋
|
| KorQuAD[3]
|
| KorQuAD_v1.0_dev.json |
json
|
4 MB |
데브 데이터셋
|
| KorQuAD_v1.0_train.json |
json
|
37 MB |
학습 데이터셋
|
| 한국어 위키백과 덤프
|
| kowiki-latest-pages-articles.xml.bz2 |
xml.bz2
|
642 MB |
|
| ratsgo 전처리 데이터
|
| processed_wiki_ko.txt |
txt
|
940 MB |
한국어 위키백과
|
| corrected_ratings_corpus.txt |
txt
|
17 MB |
띄어쓰기 교정(soynlp)한 네이버 영화 말뭉치 (레이블 없음)
|
| corrected_ratings_test.txt |
txt
|
4 MB |
띄어쓰기 교정(soynlp)한 네이버 영화 말뭉치 테스트셋 (레이블 없음)
|
| corrected_ratings_train.txt |
txt
|
14 MB |
띄어쓰기 교정(soynlp)한 네이버 영화 말뭉치 학습셋 (레이블 있음)
|
| processed_korquad.txt |
txt
|
19 MB |
KorQuAD 학습/데브셋
|
| processed_ratings.txt |
txt
|
17 MB |
네이버 영화 말뭉치 학습/테스트셋 (극성 레이블 없음)
|
| processed_ratings_test.txt |
txt
|
4 MB |
네이버 영화 말뭉치 테스트셋 (극성 레이블 있음)
|
| processed_ratings_train.txt |
txt
|
14 MB |
네이버 영화 말뭉치 학습셋 (극성 레이블 있음)
|
| processed_review_movieid.txt |
txt
|
66 MB |
네이버 영화 말뭉치 전체 데이터셋 (영화 ID 포함)
|
| soyword.model |
model
|
19 MB |
네이버 영화 말뭉치로 학습한 soynlp 형태소 분석 모델
|
| space-correct.model |
model
|
3 MB |
네이버 영화 말뭉치로 학습한 띄어쓰기 교정(soynlp) 모델
|