네이버 독창성 산출 로직

How to calculate originality index in Naver search engine
네이버 검색 독창성 산출 로직
네이버 검색 독창성 계산 방법
originality score
독창성 점수, 오리지널리티 계산

1 청크[ | ]

  • 비교의 기본 단위가 되는 주요 구절
  • 그림 1개는 청크 1개가 됨
  • 빠른 비교를 위해 128비트 해시값으로 변환됨

2 계산[ | ]

원본문서
[math]\displaystyle{ 독창성=1+\frac{\sum사본별 중복청크수}{원본청크수} }[/math]
사본문서
[math]\displaystyle{ 독창성=\frac{전체청크수 - 중복청크수}{전체청크수} }[/math]

3 예시[ | ]

웹문서 청크(게시일순)[1]
  • 원본 : 나는, 생각한다, 고로, 존재한다
  • 사본1: 나는, 생각한다 (부분복사)
  • 사본2: 나는, 생각한다, 고로, 존재한다 (전체복사)
  • 사본3: 나는, 생각한다, 고로, 존재한다, 방법적, 회의 (전체복사+추가)
독창성 계산
  • 원본: [math]\displaystyle{ 독창성=1+\frac{\sum사본별 중복청크수}{원본청크수}=1+\frac{2+4+4}{4}=3.5 }[/math]
  • 사본1: [math]\displaystyle{ 독창성=\frac{전체청크수-중복청크수}{전체청크수}=\frac{2-2}{2}=0 }[/math]
  • 사본2: [math]\displaystyle{ 독창성=\frac{전체청크수-중복청크수}{전체청크수}=\frac{4-4}{4}=0 }[/math]
  • 사본3: [math]\displaystyle{ 독창성=\frac{전체청크수-중복청크수}{전체청크수}=\frac{5-4}{5}=0.2 }[/math]
→ 원본의 독창성은 다른 데서 베껴간 청크 수가 많을수록 높음
→ 사본의 독창성은 베껴온 청크 비율이 적을수록 높음

4 같이 보기[ | ]

5 참고[ | ]

  1. 예시의 청크는 설명을 위한 것으로, 실제 청크는 이렇게 짧지 않다. 또한 "나는"과 같이 매우 흔하게 사용되는 문구는 제외될 것이다. (이렇게 흔한 표현까지 검출한다면 시간이 엄청나게 소요되겠지….)