낙서장

쓰레기 같은 빙 검색엔진에서 내 블로그스팟이 통누락된 사건에 관하여.

K66Google 2023. 11. 20. 12:18

(출처 : 인터넷 트렌드의 2023년 10월 검색엔진 점유율)

 

마이크로소프트 사의 빙(Bing)이라는 검색엔진이 있다. 우리나라에서는 네이버나 구글은 커녕, 다음 마저도 이기지 못하는 그런 영세한 검색엔진이다. 세계적으로 봤을때도 구글에게 크게 밀려 한 자리 수 점유율을 밑도는 수준이다.

오늘은 그런 보잘 것 없는 검색엔진에 대해 글을 좀 써야겠다. 당연히 응원하기 위한 글이 아니다. 제목에도 써놓았지만, 내 블로그스팟이 빙 검색엔진에서 통누락된 사건에 관한 것이다.

사실 여기 티스토리와는 무관한 사항이다. 하지만 블로그스팟에 쓰면 언제 검색 노출에 잡힐 지 알 수 없다. 이 쓰레기 같은 검색엔진의 실태를 가능한 널리 퍼뜨리는 게 좋겠다고 생각해서, 부득이하게 검색 노출 만큼은 타의 추종을 불허하는 여기 티스토리에 글을 작성하게 되었다. 그러니 많은 양해 부탁드립니다.

 

 

1. 시작부터 껄끄러웠다.

  

블로그스팟의 유입을 위해, 여러 검색엔진의 웹마스터 도구에 내 블로그스팟을 등록하였다. 그리고 게시물을 작성할 때마다 수동으로 색인 요청을 하였다. 티스토리나 네이버 블로그는 가만히 있어도 알아서 다음·네이버 검색엔진에 노출되지만, 블로그스팟이나 워드프레스는 가만히 있으면 아무 일도 일어나지 않는다. 블로그 운영자가 부지런하게 발품을 팔지 않으면 언제 색인되고, 언제 노출될 지 알 수 없다. 아무튼 그렇게 색인 요청을 열심히 했다.

다음은 등록만 하고 내버려둬도 알아서 자동으로 색인하고 검색 결과에 노출되었다.

네이버는 2차 도메인을 쓴 덕분인지 수동 색인을 하면 하루 이내로 검색 결과에 노출되었다.

구글은 수동 색인 요청 시 이틀 내로 검색 결과에 반영시켜 주다가... 11월 1일 0시(미국 태평양 표준시 기준?) 이후에 작성된 글부터는 전혀 색인이 이루어지지 않고 있다. 서치콘솔에서 수동으로 크롤링시켜도, 색인이 만들어지지 않아 검색 노출이 되지 않는다. 11월에 무슨 검색 알고리즘을 업데이트한 것 같은데, 그로 인한 영향인지 아닌지는 불명.

은 블로그 검색 등록을 요청해도 간만 보고 무시하길래 처음부터 단념했다.

그리고 은... 수동 색인을 요청해도 지들 입맛에 당기는 글만 검색에 노출시켜주고, 그렇지 않으면 아무리 요청해도 무시했다. 처음에는 버그인 줄 알고 웹마스터 도구에서 블로그를 삭제하고 다시 추가도 해봤다. 그러나 아무런 효과도 없었다. 겨우 노출되고 있었던 글들도 한 두개씩 검색 결과에서 사라지는 등, 빙 놈들은 끊임없이 나에게 스트레스와 실망감을 주었다.

이렇게 시작부터 내 블로그스팟과 빙과의 관계는 껄끄러웠다.

 

 

 

2. 일부 검색 결과가 삭제되었습니다.

 

나는 빙에서 내 블로그 게시물이 노출되고 있는지 꾸준히 체크를 해왔으나, 계속되는 스트레스로 인해 10월 14일을 끝으로 체크를 그만두게 되었다. 그 뒤로는 게시물 작성 후 색인 요청만 하였다.

내가 체크를 그만둔 후 한동안은 노출 수가 하나도 없다가, 10월 말 쯤 되니 약간의 노출 수가 잡히는 게 통계에서 확인되었다.

 

그리고 11월이 되었다.

빙 검색엔진에서 내 블로그스팟의 모든 게시물이 사라졌다.

 

 

내가 이 문제를 인식하게 된 건 11월 11일이었다.

위에서도 언급했지만, 11월 들어서 구글이 내 블로그스팟의 검색 색인을 전혀 하지 않고 있었다. 그래서 그걸 조사하던 참에 빙 검색엔진 쪽도 점검해보기로 한 것이다.

그러나 'Some results have been removed (일부 검색 결과가 삭제되었습니다.)' 같은 문구와 쓸데없는 빙의 AI 봇만 뜰 뿐, 내 블로그 게시물은 하나도 뜨지 않았다. (링크)

마치 다음에서 특정 티스토리 블로그를 전혀 검색 결과에 노출시키지 않는, 이른바 '통누락 현상'과 비슷한 꼴이다.

 

 

나는 일단 할 수 있는 조치를 모두 취하기로 하였다.

robots.txt 인식이 잘못돼서 그런 것일 수도 있으니 다시 제출하였다. 그리고 빙 쪽에 이 문제에 대한 항의 의견을 제출했다.

 

 

사이트맵과 RSS도 삭제 후 다시 제출하였다.

그런데 다시 제출하기 전, sitemap.xml의 제출일이 10월 28일(?)로 바뀌어 있는 걸 확인할 수 있었다. 나는 그 날 사이트맵을 제출한 일이 없는데, 어떻게 된 건지는 잘 모르겠다. robots.txt에 사이트맵 주소가 명시되어 있으면 검색 봇이 멋대로 다시 제출한다는 의견도 접한 적이 있는데, 아마 그런 것일지도 모른다.

마지막 크롤링 날짜는 둘 다 빙 웹마스터 도구에 처음으로 가입한 9월 25일에서 변하지 않았다. 참으로 어이가 없었다.

 

 

아침에 항의 의견을 보내고 오후가 되니, 블로그스팟 통계에 이상한 리퍼러 주소가 감지되었다.

 

'prod.uhrs.playmsn.com'

 

검색해보니 마이크로소프트의 AI 및 데이터 라벨링과 관련된 사이트인 것 같다. 그런데 '블랙 햇 월드'라는 커뮤니티에서는 해당 주소가 빙에서 검색 색인을 배제하기 위한 판단 과정을 거치는 사이트라는 의견이 있었다. (링크)

 

 

한 마디로 저승사자와 같은 놈들이라는 것이다.

긍정적인 답변이 돌아올 거라는 기대는 사라졌다.

 

 

3. 읽을 가치도 없는 매크로 답변과 가이드라인

 

항의 의견을 제출한지 3일이 지나서야 겨우 답변이 왔다. 물론 답변은 매크로식 답변이었다.

하지만 내 성질을 돋구기에는 아주 충분하고도 남았다.

 

'...Bing이 제시한 기준을 충족하지 못한 것으로 보입니다. (...did not meet the standards set by Bing)'

'Bing 웹마스터 가이드라인을 검토하여... (...review our Bing Webmaster Guidelines)'

 

이 쓰레기 같은 빙신 새끼들...

구글 놈들보다 더 한 놈이 튀어나올 줄은 상상도 못했다.

우선 내 블로그스팟이 무슨 기준을 충족시키지 못했다는 건지도 전혀 알 수 없다. 만약 내 블로그스팟이 스팸 블로그나 다름없는 수준이였다면, 네이버나 다음은 왜 계속 검색 색인과 노출을 해주고 있으며, 구글은 왜 10월 말까지는 아무 말 없이 검색 노출을 시켜주고 있었단 말인가?

어쨌든 그 'Bing 웹마스터 가이드라인'이 뭐길래 이리 유세를 떠는 건지, 한번 살펴보기로 했다. (링크)

 

 

일단 의심가는 부분은, 내 블로그스팟의 '더빙 애니 창고' 카테고리에 작성된 글들이다.

망초칼럼 연재때는 몇몇 글들이 색인에서 배제당하긴 했지만 통누락에 걸리지는 않았으니까 말이다. 하지만 10월 말이 지나고 11월 초가 되어서야 통누락 현상이 발생했다는 점은 도저히 납득이 안 간다. 더빙 애니 창고 작업을 시작한 건 10월 중순이었다. 아무튼 짚고 넘어가야 할 사항을 아래에 서술해본다.

 

1. 게시물(페이지) 당 링크 수는 아무리 많아도 100개 이하였다. 수 천개까지 간 적은 없다.

2. 링크에는 rel="nofollow" 속성을 꼬박꼬박 붙여서 크롤러가 못 가도록 방지했다.

3. 링크 팜은 2개 이상의 웹사이트가 서로 각자의 사이트로 가는 링크를 만들어서 유입을 주고 받고 하는 방식을 말하는 거다. 그러나 내가 블로그스팟에 작성한 글은 미러 사이트로 가는 링크만 있을 뿐, 미러 사이트에서 작성한 글로 돌아오는 링크는 없다. 또한 미러 사이트는 크롤링이 불가능하도록 모든 페이지에 meta 태그로 noindex를 삽입하였다. 또한 robots.txt도 모든 크롤링 봇의 접근을 금지하도록 조치하였다.

4. 내 블로그스팟의 백링크는 이 티스토리 블로그와 안 쓰는 네이버 블로그가 사실상 전부다. 인위적인 백링크 작업 같은 건 하지도 않았다.

5. 만약 모바일 전용 URL이 '?m=1' 을 말하는 거라면, 그걸 없애는 건 불가능하다. 모든 블로그스팟은 스마트폰으로 접속할 시 해당 주소가 붙는단 말이다.

 

 

6. 중복 문서는 복붙한 게시물을 말하는 거라고 본다. 블로그 이사 때에 영향이 있을 뿐, 지금의 상황과는 무관하다.

7. 스크랩은 어디까지가 스크랩인가? 애니메이션 포스터 이미지를 가져와서 첨부하면 그것도 스크랩인가? 텍스트로 된 정보를 가져와서 표에 맞춰서 입력하면 그것도 스크랩인가? 이것저것 다 따지면 한도 끝도 없고, 인터넷 세상의 수많은 글들이 여기에 저촉되고 말 거다.

8. 설마 게시물들의 구조가 모두 비슷하니 자동 생성된 글이라고 취급받는 건가? 표로 정리하지 않으면 글을 어떻게 쓰라는 말인가?

 

도저히 납득 가는 구석이 하나도 없었다.

'쓰레기 텍스트'는 내 블로그 게시물이 아니라, 바로 이딴 가이드라인을 보고 하는 말임이 틀림없다.

 

 

다시 제출한 사이트맵은 사흘이나 지났는데도 계속 '처리 중' 상태다.

아무래도 빙 놈들이 이젠 내 블로그의 사이트맵 주소를 차단했나보다.

인내심도 이젠 다 떨어졌다. 엿같은 빙신 새끼들... 니네는 이제 끝이다.

 

 

4. 빙 웹마스터도구 탈퇴 및 검색 봇 차단

 

더 이상 이런 쓰레기 같은 검색엔진과 상종하고 싶지 않다.

그래서 사이트맵 다 지우고, 사이트 삭제하고, 빙 웹마스터 도구를 탈퇴하기로 한다.

 

 

그리고 내 블로그스팟에 빙 검색 봇이 들어오는 걸 차단시키기로 했다. '맞춤 robots.txt' 에서 아래와 같은 내용을 추가했다.

 

User-agent: bingbot

Disallow: /

 

봇이 오면 뭐 하나? 어차피 검색 결과에는 노출도 안 시켜줄 건데 말이다. 꼴값 떨지 말고 꺼지라고 하는 게 차라리 낫다.

 

 

그렇게 탈퇴한 지 5일이 지났다.

하지만 여전히 빙에서는 내 블로그스팟 주소를 검색하면 '일부 검색 결과가 삭제되었습니다.' 라는 문구가 뜨고 있다.

결국 재가입 후 아예 내 블로그 게시물 전체를 검색 차단 조치하기로 하였다. URL에는 '내 블로그 주소', URL 유형에는 '디렉터리', 차단 유형은 'URL & 캐시' 로 지정하면 아마 모든 글이 해당될 것이다.

조치 후에는 다시 탈퇴한다.

 

 

5. 쓰레기 같은 빙 때문에 입은 피해

 

빙 검색엔진의 통누락 문제로 인해 받은 피해는, 단지 빙에서 내 블로그스팟이 검색되지 않는 것 뿐만이 아니다.

빙의 검색 API를 쓰고 있는 덕덕고(Duckduckgo), 브레이브(Brave), 야후(Yahoo), 에코시아(Ecosia), 콴트(Qwant) 등의 검색엔진에서도 내 블로그스팟이 보이지 않게 된다. 다른 건 몰라도 덕덕고에서 검색 노출이 안되는 건 좀 씁쓸하다. 거기는 약간이라도 검색 수요가 있을텐데...

 

 

결국 나는 이를 대체하기 위해 러시아 검색엔진인 얀덱스에 검색등록을 하기로 하였다.

빙 새끼들이 나한테 이딴 모욕적인 짓을 벌이지 않았더라도, 내가 러시아 검색엔진까지 이용할 일은 없었을 것이다.

빙이 모든 걸 망쳤다.

쓰레기 같은 빙. 쓰레기 같은 마이크로소프트.

 

 

* 추신

구글에 'bing some results have been removed' 라고 검색하면 빙의 횡포에 당한 외국 네티즌들의 하소연을 보실 수 있습니다.

해당 문제는 Github 페이지에도 정리되어 있으니 번역기 돌려서 읽어보시는 걸 추천합니다. (링크)