희소 표현

Jmnote (토론 | 기여)님의 2021년 5월 30일 (일) 01:28 판 (→‎개요)

1 개요

sparse representation
희소 표현
  • 값이 0이 아닌 요소만 저장하는 텐서의 표현
  • 예를 들어 영어 어휘에는 약 백만 개의 단어들이 있다.
  • 하나의 영어 문장에서 어떤 단어가 몇 번 사용되었는지 나타내주는 다음의 두 가지 방법을 생각해 보자.
    • 이 문장을 밀집 표현 방식으로 나타내면 백만 개의 셀들로 구성된 정수 백터를 정의한 다음 벡터의 셀 대부분에는 0을 할당하고, 극히 일부 셀에는 작은 정수값을 할당해야 한다.
    • 이 문장을 희소 표현 방식으로 나타내면 실제로 문장에 있는 단어를 나타내는 셀만 저장한다.
  • 그러므로 20개의 고유한 단어가 포함된 문장을 희소 표현 방식으로 나타내면 문장에 포함된 단어에 해당하는 20개의 셀만 저장하면 된다.
  • '개가 꼬리를 흔든다.'라는 문장을 두 가지 방법으로 나타낼 수 있다.
  • 다음 표에서 보듯이 밀집 표현 방식으로 나타내려면 거의 백만 개에 달하는 셀을 사용해야 하지만, 희소 표현 방식에서는 세 개의 셀만 사용하면 된다.
밀집 표현
셀 번호 단어 발생 횟수
0 0
1 0
2 0
3 0
… 발생 횟수가 0인 단어가 140,391개 더 있음
140395 개가 1
… 발생 횟수가 0인 단어가 633,062개 더 있음
773458 꼬리를 1
… 발생 횟수가 0인 단어가 189,136개 더 있음
962594 흔든다 1
… 발생 횟수가 0인 단어가 매우 많음

희소 표현
셀 번호 단어 발생 횟수
140395 개가 1
773458 꼬리를 1
962594 흔든다 1

2 같이 보기

3 참고

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}