낙서장

빌어먹을 네이버 VIEW 검색. 꼴값떠는 유사문서 취급.

K66Google 2021. 1. 1. 22:21

2021년을 맞아 네이버 VIEW탭 검색(블로그 부문)에서 내 게시물이 제대로 검색되는지 안되는지 전수조사했다.
조사 방식은 블로그 글 제목을 똑같이 검색창에 입력했을때 내 블로그 게시물이 뜨는지 안 뜨는지를 기준으로 잡았다.

그랬더니 내 블로그 게시물 상당수가 유사문서 취급당하는 비참한 현장을 목도하게 되었다.

유사문서 취급때문에 피해를 본 게시물 중에는 일간 조회수 TOP20에 드는 게시물도 존재했다. 더 이상 손해가 커지기 전에 무언가 조치를 취해야 한다.


조치는 웹마스터 도구의 페이지 수집 요청과 원본문서 반영 요청 두 가지로 진행했다. 이때 페이지 수집 요청은 하루에 50건으로 제한되어 있어서 부득이하게 이틀에 걸쳐서 진행하였다. (원본문서 반영 요청은 하루만에 끝냈다.)

진행하는 김에 비공개 게시물 중 공개할 가치가 있는 게시물도 공개 처리 후 페이지 수집을 요청했다.
진행 내역은 다음과 같다. (글번호만 표시)

* 1/1
유사문서로 등록(원본 반영 요청) - 페이지 수집 요청.
28, 56, 57, 66, 67, 69, 75, 76, 86, 134(누락), 224, 227, 252, 260, 261, 268, 277, 309, 338, 339, 343, 344, 345, 348, 349, 352, 357, 360, 363, 364, 365, 370, 375, 381, 382, 398, 400, 414, 417, 425, 428, 429, 431

비공개 게시물 공개 - 페이지 수집 요청.
226, 316, 318


* 1/2
유사문서로 등록 - 페이지 수집 요청.
432(누락), 433, 444, 447, 449, 453, 457, 460, 461, 470, 476, 477, 479, 490, 492, 494, 502, 513, 516, 523, 541, 548, 565(누락), 623(누락), 629(누락), 635(누락), 637(누락), 640(누락), 668(누락)

일본 중의원 의원 총선거 관련 게시물 (전부 유사문서로 등록) - 페이지 수집 요청.
374, 387, 388, 390, 391, 394, 395, 434, 435, 436, 437, 438, 439, 440, 441, 482, 483, 484, 485, 486, 487


* 1/3
비공개 게시물 공개 - 페이지 수집 요청.
319, 320, 321, 322, 323, 324, 325, 326, 335, 336, 361, 397
329, 331, 332, 368,
346

이것으로 조치 작업은 모두 마쳤다. 이제 일주일 정도 지나서 검색결과에 변화가 있는지 확인해보는 일만 남았다.



* 1/4

bio.navercorp.com 이라는 주소가 유입로그에 포착되었다. 이 주소는 원본반영 요청을 했을때 방문하는 봇의 주소로 추정된다.



* 1/7

또 다시 bio가 방문했다. 이번에는 뭐 때문에 온 건지 알 수 없다.



* 1/10

조치한지 일주일 가량 시간이 흘렀으므로, VIEW탭에 제대로 노출되고 있는지 다시 전수분석했다.

(제대로 VIEW탭에서 나오는 글번호는 취소선 표시를 해놓았다. 분석 결과는 캡처해서 이미지로 게시한다.)



빌어먹을 게이버 놈들!!!!!!!!!!!!!!


네이버를 멸칭으로 불러보는건 참으로 오래간만이다. 조금이라도 믿었던 내가 바보였다. 비공개에서 공개로 전환하거나, 누락된 일부 게시물만 VIEW탭에 들어왔고 나머지 대부분은 아직도 유사문서 탭에서 보인다.



원본 반영 요청? 이딴거 장식일 뿐이다. 예를 하나 들어볼까? 

내 블로그의 432번 게시물을 통째로 베낀 네이버 블로그가 있다. 안타깝게도 432번 게시물에서 다루고 있는 방법은 윈도우10 최신버전이나 지포스 411.70 이후 드라이버에서 작동하지 않는다. 그래서 나는 이를 파악하고 다른 방법을 이용하도록 글을 업데이트 해놓았다. 그러나 베낀 글은 업데이트가 되지 않는다. 결국 베낀 블로그에 들어간 사람들은 2021년 현재 작동하지도 않는 방법만 알게 되는 것이다. 내가 무단 복사가 아닌 링크 공유를 원하는 것도 바로 이 문제 때문이다. 복사꾼들은 글을 업데이트 하지 않기 때문이다.

그리고 쓰레기같은 네이버 검색 알고리즘은 유사문서와 본 문서도 구별하지 못한다. 내가 이 글에 대해 몇 개월 전에도 원본 반영 요청을 한 적이 있다. 그때도 bio 뭐시기가 내 블로그에 왔다 간 걸 유입경로를 통해 확인했다. 그러나 아무것도 변하지 않았다. 432번 게시물은 VIEW탭의 유사문서에도 없고, 통합검색에도 안 뜬다. 아무리 웹페이지 수집요청을 해도 절대 네이버에서 뜨지 않는다. 구글과 다음 검색결과에서 정상적으로 표시되고 있다는 점에 착안했을때, 해당 글번호가 블랙리스트에 등록되었다고 간주할 수 밖에 없다.


게시중단 서비스에 대해서도 알아봤다. 본인확인이야 휴대폰 인증으로 가능하니까 어렵지는 않다. 그런데 요청 사유는 뭐라고 적어야 하나? 네이버 블로거가 내 게시물을 무단전재했다? 내가 글을 업데이트하지 않았다면 원본 게시물과 비교해서 처리할 수 있을 것이다. 그런데 나는 이미 글을 업데이트했다. 해당 글은 무단전재한 구버전 글과 내 블로그의 최신버전 글 두개가 존재하게 되었다. 만약 게이버 담당자가 서로 다른 글로 간주하고 거부하면 그때는 어쩔건가?

가장 큰 문제는 무단불펌자의 이메일로 게시중단 알림 메일이 간다는 점이다. 동영상 저작권 제재처럼 알림없이 조용히 처리되지 않는다. 예전에는 알림 메일에 신고자의 실명도 기재되었다. (지금은 '관련 당사자'로 나온다.) 이때문에 괜히 또다른 시비에 휘말릴 수도 있고, 신고를 해야 할 정도로 해당 게시물이 그렇게 대단하지도 않다. 애당초 게이버놈들의 제식구 감싸기식 유사문서 식별 알고리즘만 없었더라도 이런 촌극은 벌어지지 않았을거다. 따라서 이 방법은 포기한다.


페이지 수집 요청? 이건 VIEW탭이나 통합검색 두 곳 모두에서 누락된 게시물에나 효과가 있다. 이미 유사문서 탭에 처박힌 글은 수집 요청해도 단 한 번만 해제될 뿐, 일주일 쯤 지나면 다시 유사문서 수용소로 들어간다. 그 뒤로는 아무리 수집 요청을 해도 유사문서에서 빠져나올 수 없다. 또한 432번 게시물처럼 블랙리스트에 오른 글번호는 수집 요청에 성공해봤자 VIEW탭에도 통합검색 결과에도 뜨지 않는다.


이번에는 375번 게시물을 예로 들겠다. 2013년 즈음, 네이버 웹문서 검색을 통해 디시인사이드 게시물에 접속하면 '특정 사이트'로 리다이렉트되는 문제가 있었다. 해당 사이트는 네이버 지식IN에서 2013년 5월 30일에 처음 거론되었고, 블로그 쪽에서 처음 거론된 시기는 2013년 6월 5일에 내가 쓴 375번 게시물이 최초다. 위에 첨부한 다음 검색결과 스크린샷을 보면 내가 거론한 날짜 이전에는 블로그 쪽에서 언급된 적이 없다.


그러한 최초의 게시물이 2021년에는 유사문서 취급이나 받고 있다.

후속 게시물때문에 글 순위가 밀릴 수는 있다. 그런데 유사문서가 뭐냐? 유사문서가 되려면 내가 게시물을 작성하기 전에 똑같은 주제를 다룬 게시물이 존재해야 한다. 하지만 그런 게시물은 없다. 미래에 작성될 게시물을 어떻게 과거에서 베껴서 쓸 수 있단 말인가? 한마디로 꼴값떠는 것이다.


원본이 유사문서가 되고, 유사문서가 원본이 된다. 


이것이 네이버 VIEW 검색의 주객전도 알고리즘이다.



.

 

이 게시물이 갈 곳은 과연 어떤 곳일까? 유사문서 수용소로 가게 될까? 아니면 검색누락이라는 벼랑 끝으로 가게 될까? 

그럼 이만.