- How to calculate originality index in Naver search engine
- 네이버 검색 독창성 산출 로직
- 네이버 검색 독창성 계산 방법
- originality score
- 독창성 점수, 오리지널리티 계산
1 청크[ | ]
- 비교의 기본 단위가 되는 주요 구절
- 그림 1개는 청크 1개가 됨
- 빠른 비교를 위해 128비트 해시값으로 변환됨
2 계산[ | ]
- 원본문서
- [math]\displaystyle{ 독창성=1+\frac{\sum사본별 중복청크수}{원본청크수} }[/math]
- 사본문서
- [math]\displaystyle{ 독창성=\frac{전체청크수 - 중복청크수}{전체청크수} }[/math]
3 예시[ | ]
- 웹문서 청크(게시일순)[1]
- 원본 : 나는, 생각한다, 고로, 존재한다
- 사본1: 나는, 생각한다 (부분복사)
- 사본2: 나는, 생각한다, 고로, 존재한다 (전체복사)
- 사본3: 나는, 생각한다, 고로, 존재한다, 방법적, 회의 (전체복사+추가)
- 독창성 계산
- 원본: [math]\displaystyle{ 독창성=1+\frac{\sum사본별 중복청크수}{원본청크수}=1+\frac{2+4+4}{4}=3.5 }[/math]
- 사본1: [math]\displaystyle{ 독창성=\frac{전체청크수-중복청크수}{전체청크수}=\frac{2-2}{2}=0 }[/math]
- 사본2: [math]\displaystyle{ 독창성=\frac{전체청크수-중복청크수}{전체청크수}=\frac{4-4}{4}=0 }[/math]
- 사본3: [math]\displaystyle{ 독창성=\frac{전체청크수-중복청크수}{전체청크수}=\frac{5-4}{5}=0.2 }[/math]
- → 원본의 독창성은 다른 데서 베껴간 청크 수가 많을수록 높음
- → 사본의 독창성은 베껴온 청크 비율이 적을수록 높음
4 같이 보기[ | ]
5 참고[ | ]
- ↑ 예시의 청크는 설명을 위한 것으로, 실제 청크는 이렇게 짧지 않다. 또한 "나는"과 같이 매우 흔하게 사용되는 문구는 제외될 것이다. (이렇게 흔한 표현까지 검출한다면 시간이 엄청나게 소요되겠지….)
편집자 Jmnote Jmnote bot
로그인하시면 댓글을 쓸 수 있습니다.