컴퓨터와 잡동사니 자료

검색엔진 누락 조회 프로그램을 만들었다.

K66Google 2021. 2. 7. 21:29

* 서론

최근의 블로그 세계는 정보 공유 목적의 글보다는 수익에만 치중한 상업성 글, 남의 글을 복사해서 그대로 올린 글들이 만연하고 있다.

검색엔진들은 자기네들의 검색결과에 그러한 글들을 배제하기 위해 검색 알고리즘을 바꾸는 등 여러가지 술수를 부린다. 하지만 그로 인해 피해를 보는 건 오히려 평범하게 글을 쓰면서 담백하게 블로그를 운영하는 사람들이다.

 

이 블로그 또한 게이버의 주객전도식 유사문서 판단으로 인해 큰 피해를 봤다. (관련 게시물

어떤 글을 쓰더라도 블로그 방문자수는 하락하기만 하고, 반등할 기미는 보이지 않는다.

그래서 지금까지 게이버만 욕하고 있다가, 문득 이런 생각이 들었다. 네이버 이외의 다른 검색엔진들은 과연 내 게시물을 제대로 수집하고 있을까라고 말이다.

 

그래서 누락 조회 프로그램을 이틀만에 뚝딱 만들었다. 

 

본래 이 프로그램은 네이버 VIEW 검색만 확인하려고 만들었는데, 어쩌다 보니 네이버 뿐 아니라 다른 검색엔진도 확인할 수 있게 되었다. 조회 가능한 검색엔진 종류는 다음과 같다.

 

1. 네이버 (VIEW탭 검색 - 유사문서 제외 / 유사문서 포함 , 통합검색 2페이지)

2. 다음 (블로그 탭)

3. ZUM (블로그 탭)

4. 구글

5. Bing

6. 미국 야후

7. 일본 야후

8. DuckDuckGo

 

-----------------

 

* 사용 설명서

 

1. 조회할 블로그 게시물 제목 / 게시물 주소 / 블로그 도메인을 다음과 같은 형태로 나열하여 텍스트 파일을 작성한다.

 

게시물 제목|게시물 주소|블로그 도메인

 

게시물 제목은 빠짐없이 전부 입력해야 하며, 게시물 주소도 프로토콜(https)까지 전부 입력한다. 블로그 도메인은 프로토콜 빼고 입력한다.

 

엑셀을 이용하면 좀 더 쉽게 작성할 수 있다. (메모장으로 가져올때 Tab이 붙는데 이건 프로그램에서 알아서 처리하니까 수동으로 지울 필요 없다.)

 

 

2. 프로그램을 실행하고 '찾아보기...' 버튼을 눌러서 텍스트 파일을 지정한다. 그럼 경로가 입력된다.

3. 조회할 검색엔진을 체크한다. (기본값은 네이버만 체크되어 있다.)

4. '누락 분석 실행' 버튼을 클릭하고 안내에 따른다.

5. 조회 결과가 나오면 메모장 등에 복사한다.

 

-----------------

 

* 다운로드

naver_viewsearch_omission v0.31.zip
9.39MB

VB.Net으로 만들었다. 넷프레임워크 버전은 4.5.1이다.

압축을 풀고 bin\debug\naver_viewsearch_omission.exe 파일을 실행하면 된다.

 

- 버전 변동 사항

v0.1

최초 출시.

네이버 검색 결과 지원 (VIEW탭 유사문서 제외, VIEW탭 유사문서 포함, 웹문서 2페이지)

 
v0.2
Webclient 조회 방식에서 Selenium ChromeDriver 조회 방식으로 변경.
다음, ZUM, 구글, Bing, 미국 야후, 일본 야후, DuckDuckGo도 지원하도록 수정.
 
v0.3
티스토리 첫 배포.
 

v0.31

크롬 89~90 버전 호환되도록 수정.

----------------

 

* 주의사항

1. 크롬 89~90버전이 설치되어 있어야 정상작동 한다.

This version of ChromeDriver only supports~ 라는 오류가 뜨면 ChromeDriver 페이지(링크)에 가서 자기 크롬에 맞는 드라이버 파일을 받는다. (win32 버전으로)

받은 후 프로그램 폴더의 ChromeDriver에 덮어씌우고 재실행해본다.

 

2. 금방 발행한 게시물은 바로 검색에 반영되지 않는다. 보통은 1~2일 정도 지나야 검색 색인에 반영된다.

3. 이 프로그램은 검색 색인 여부만 판단할 뿐, 내 게시물이 어떤 특정 검색어에서 몇 위에 있는지는 판단하지 않는다.

4. 구글 검색 조회 도중 CAPTCHA에 걸리는 경우가 있다. 이때는 안내에 따라 셀레니움 브라우저에서 CAPTCHA를 수동으로 해제하고 계속 진행하면 된다.

 

-----------------

 

이 프로그램은 나중에 검색엔진이 주소 체계를 바꾸든가 하면 작동되지 않을 수 있다.

그럼 이만...