포털사이트의 외부검색 차단. 어떤 방법으로?

bearchit의 이미지

집으로 오는 버스 안에서 갑자기 이게 궁금해졌습니다.
'국내 포털사이트들은 외부 검색엔진을 어떤식으로 차단할까?'

보통 웹사이트에 robots.txt 파일로 외부검색엔진을 차단하지 않습니까?
하지만 이 파일을 로봇이 무시해버리면 검색이 가능할텐데...

예를 들어 구글의 봇이 네이버의 컨텐츠를 검색할 경우
네이버쪽에서 robots.txt 파일로만 막았을 경우에
구글에서는 이 파일을 무시하고 뚫고 들어가는 것도 가능하지 않습니까?

제가 궁금한건 저런식으로 포털사이트의 컨텐츠를 검색하지 못하는 이유가
리퍼러 로그를 통한 법적인 대응.. 뭐 비슷한 것 때문에 못하는건지,
아니면 외부 검색을 막는 다른 특별한 방법이 있는가 하는 겁니다.

Necromancer의 이미지

네, 무시하면 보여주는거 가능합니다.

이런 경우 처음에는 항의문 보내고,
그래도 안되면 방화벽에서 해당 봇의 IP주소를 블락해버리죠.
도가 심하면 법정으로 가는수도 있습니다.

또다른 블락방법이 있다면 예전 네X버에서 엠X스의 열X검색을 막을려고 썼던 수법인데,
변수에 timecounter를 변조한 값을 넣어서
한 콘텐츠를 매번 똑같은 링크로 못들어가게 해서 차단한 적도 있었죠.

Written By the Black Knight of Destruction

knight2000의 이미지

제가 robots.txt의 존재를 알게 된 곳이 바로 구글이죠.
구글에서 검색을 했다는 말이 아니라, 구글에서 검색할 수 없게 하려면 어떻게 해야 하느냐고 구글에 물어봤더니 robots.txt를 만들라고 가르쳐 주더군요.
그 말은 곧 robots.txt를 무시하지 않는다는 뜻이지요.
참고 : http://www.google.co.kr/intl/ko/remove.html

반대로 2004년 말까지 네이버는 robots.txt를 무시하였습니다. 지금은 어떤지 모르겠네요.

===== ===== ===== ===== =====
knight2000 of SALM.
SALM stood for SALM Ain't a Life Model.
SALM is not the life model, but SALM is just the life.

===== ===== ===== ===== =====
knight2000 of SALM.
SALM stood for SALM Ain't a Life Model.
SALM is not the life model, but SALM is just the life.

익명사용자의 이미지

neocoin의 이미지

익명사용자로 적었더니 지울수도 없네요.

이렇게 추가해주긴 해도 걱정됩니다.

< meta name="robots" content="noindex,nofollow"'>