최강의 검색엔진, 구글 웹 서치의 기본적인 구성

3 minute read

구글의 많은 서비스 중에서 가장 비중이 큰 것은 역시 구글 웹 서치일 것입니다. 이 글에서는 일반적인 구글의 지식을 알아봅니다.

2005년 중반기 때 구글은 크롤러에게 사용자가 강제로 URL을 알리는 프로그램 외에 구글 사이트맵이라는 서비스를 시작했습니다. 이로서 웹사이트를 소유하거나 관리하는 분들이 구글의 검색결과에 나오게 하는 방법은 강제적으로 구글 사이트맵을 이용하거나, 이미 서치되는 사이트에 링크가 걸리거나, 구글 웹 서치에 URL로 검색을 하는 방법 이렇게 세가지 방법이 있습니다. 구글 공식 웹사이트에서 쿼리를 넣는 방법은 제시되지 않지만, 어떤 웹사이트에도 링크되지 않는 사이트가 구글 웹 서치의 결과에 포함되어 나오는 것을 테스트를 통해서 알 수 있습니다.

구글은 최고로 빠르게 업데이트를 시키지는 않지만(개인적인 벤치마크로 구글보다 MSN의 새로운 검색엔진이 더욱 빠르게 업데이트를 시키고 있습니다.) 대부분 웹사이트를 만들고 웹사이트 URL로 검색을 하면 일주일 안에는 첫페이지가 구글 웹 서치에 나오게 됩니다.

일반적으로 SEO(Search Engine Optimizer)라고 불리우는 구글에 서치가 잘 되게 하는 방법이 있습니다. 이 작업은 검색엔진의 전반적인 특성을 파악해야 가능한 매우 테크니컬한 작업입니다. 일반인들이 생각하는 것 이상으로 검색엔진들은 저마다의 특징이 있다는 것을 기억하세요.

구글은 기본적으로 링크를 따라서 크롤링하는 방식을 이용합니다. 다만, 그 문서는 아래와 같은 성격이어야 합니다.

  • 문서의 확장자가 pdf, asp, jsp, html, shtml, xml, cfm, doc, xls, ppt, rtf, wks, lwp, wri, swf, cfm 및 php 중에 한가지 일 것
  • 스팸사이트에 링크가 걸려있지 않을 것
  • 도메인이 구글에 의해서 삭제되지 않을 것

여기서 염두에 두어야 할 것은 문서의 확장자입니다. 몇년 전부터 문서의 확장자를 회사의 이름이나 이니셜로 바꾸는 회사들이 출현하고 있는데, 그렇게 되면 구글은 확장자 자체가 없는 첫페이지만 크롤링 할 것이며, 세부 페이지들은 전혀 크롤링 되지 않습니다.

기술적으로 문서나 미디어 등 브라우져를 이용한 웹사이트는 문서의 성격에 맞는 헤더와 확장자를 적용해야 합니다. 검색엔진은 표준을 지키는 웹사이트를 가장 선호한다는 것을 기억하세요.

문서를 구글에서 삭제하는 방법

웹사이트 전체를 구글에서 삭제하거나 일부를 삭제하거나 또는 캐쉬를 방지하거나 스니핏이라 불리우는 검색엔진 리스트에 나오는 요약설명부분을 삭제하는 등의 방법을 구글은 제공하고 있습니다.

구글의 일반적인 문서 삭제 방법은 다음과 같습니다.

  1. robots.txt에 크롤링 하는 문서와 하지 말아야 할 문서를 작성하세요

  2. 스니핏을 제거하려면 문서의 태그에 헤더부분에 다음을 추가하세요.

<meta NAME="GOOGLEBOT" CONTENT="NOSNIPPET">
  1. 캐쉬를 제거하려면 다음을 추가하세요.
<meta NAME="ROBOTS" CONTENT="NOARCHIVE">
  1. 긴급하게 문서를 삭제하려면 Google의 자동 URL 제거 시스템 링크를 이용하세요.

Comments