임베딩
개요
- embeddings, vector embeddings
- 임베딩, 벡터 임베딩
- 연속 값 특성으로 표현된 범주형 특성
- 일반적으로 임베딩은 고차원 벡터를 저차원 공간으로 변환한 결과이다.
- 예를 들어 영어 문장의 단어를 다음 두 가지 방법 중 하나로 표현할 수 있습니다.
- 백만 개의 요소를 갖는(고차원) 희소 벡터로 표현한다.
- 모든 요소는 정수이다.
- 벡터의 각 셀은 서로 다른 영어 단어를 나타내며, 셀 값은 해당 단어가 문장에서 나오는 횟수를 나타낸다.
- 영어 문장 하나에 포함되는 단어 수는 대개 50개 이하이므로 벡터의 거의 모든 셀에 0이 포함된다.
- 0이 아닌 소수의 셀은 해당 단어가 문장에서 나오는 횟수를 나타내는 낮은 정수(일반적으로 1)를 포함한다.
- 수백 개의 요소를 갖는(저차원) 밀집 벡터로 표현한다.
- 각 요소는 0~1 범위의 부동 소수점 값을 갖는다.
- 이는 임베딩의 예이다.
- 텐서플로우에서는 신경망의 다른 매개변수와 마찬가지로 역전파 손실을 통해 임베딩을 학습한다.
같이 보기
참고