robots.txt 게시시 검색로봇의 동작에 의문..

망치의 이미지

제 사이트 루트에 robot.txt 를 심어두고, 모든 agent 와 모든 파일들에 대해 거부를 해두었습니다.

헌데도 불구하고, index.php 에서 접근해온 agent 들을 기록해본결과, yahoo, msn, OnetSzukaj, Google 이런 녀석들이 꾸준히 접근을 하더군요.

robots.txt 가 게시되어있을때는, robots.txt 에 먼저 접근해서 허용 여부를 판단 후에, 허용일경우에 다른 페이지에 접근하는게 아닌가요? 접근했던 녀석들이 agent 를 속인, 다른 엔진일수도 있겠지만..

위 녀석들의 IP 및 agent 정보입니다.

Quote:

Tue Aug 2 2:46:27 KST 2005 [66.196.91.11] - Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
Tue Aug 2 2:46:29 KST 2005 [66.196.91.169] - Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
Tue Aug 2 2:46:31 KST 2005 [66.196.91.167] - Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
Tue Aug 2 2:46:32 KST 2005 [66.196.91.169] - Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

Tue Aug 2 2:43:06 KST 2005 [207.46.98.69] - msnbot/1.0 (+http://search.msn.com/msnbot.htm)

Tue Aug 2 3:40:52 KST 2005 [213.180.128.152] - Mozilla/5.0 (compatible; OnetSzukaj/5.0; +http://szukaj.onet.pl)

Tue Aug 2 9:32:09 KST 2005 [66.249.65.1] - Mediapartners-Google/2.1

차리서의 이미지

천둥망치 wrote:
제 사이트 루트에 robot.txt 를 심어두고, 모든 agent 와 모든 파일들에 대해 거부를 해두었습니다.

헌데도 불구하고, index.php 에서 접근해온 agent 들을 기록해본결과, yahoo, msn, OnetSzukaj, Google 이런 녀석들이 꾸준히 접근을 하더군요.

robots.txt 가 게시되어있을때는, robots.txt 에 먼저 접근해서 허용 여부를 판단 후에, 허용일경우에 다른 페이지에 접근하는게 아닌가요? 접근했던 녀석들이 agent 를 속인, 다른 엔진일수도 있겠지만..


robots.txt에는 색인 (index) 허용 여부와 이동 (follow) 허용 여부를 지정하는 것으로 알고 있습니다. 따라서, 만일 천둥망치님께서 robots.txt에 index만 금지하시고 follow는 금지하지 않으셨다면, 크롤러 입장에서는 천둥망치님 사이트의 문서들을 ‘따라다니면서 열어보는’ 것까지는 규약 위반이 아닐겁니다. (그 내용을 긁어가서 index에 넣어버렸다면 몰라도 말이죠.)

게다가, 만일 천둥망치님께서 follow까지 모두 금지해두셨다고 해도 그건 어디까지나 천둥망치님 사이트 내에서의 follow만 금지하신 것이므로, 만일 천둥망치님의 사이트가 foo.com일 경우, 어떤 bar.com/links.html 문서에 foo.com/a.html로의 링크가 있고 bar.com/links.html 문서의 follow 설정이 허용되어있다면, 크롤러 입장에서는 이 링크를 따라 천둥망치님의 foo.com/a.html 문서 등을 열어보는 것 역시 규약 위반이 아니겠죠. (그거 하나만 읽고 곱게 나간다면 말입니다. 나중에 또다른 외부 링크로부터 다시 들어와도 상관 없구요.)

다만, 만일 천둥망치님께서 분명히 follow를 금지해두셨는데도 불구하고 크롤러가 천둥망치님 사이트의 어떤 문서를 읽은 후 그 문서에 나오는 (천둥망치님 사이트 하위의) 또다른 문서를 따라가서 읽는다면 분명히 규약 위반입니다. 이를 확인하시려면 로그에 Referer 헤더도 함께 저장되도록 만드신 후 관찰해보시면 될 것 같습니다.

만일 크롤러라고 스스로를 밝힌 UA가 어떤 문서를 읽었는데, 이 때의 referer도 천둥망치님 사이트 내의 문서라면 follow 금지 조항을 위반한거겠고, referer가 외부 사이트의 문서라면 규약 위반이 아니니 별 수 없겠고, 만일 referer가 없다면…… 나쁜 크롤러입니다.

--
자본주의, 자유민주주의 사회에서는 결국 자유마저 돈으로 사야하나보다.
사줄테니 제발 팔기나 해다오. 아직 내가 "사겠다"고 말하는 동안에 말이다!