혹시 큐로봇이 어떻게 검색엔진을 돌리는지 알고 계시는 분 계신가요?
글쓴이: adaylily / 작성시간: 목, 2009/11/05 - 5:43오후
중소규모의 뉴스 사이트를 운영하는 엔지니어입니다.
며칠전부터 큐로로라는 사이트에서 data를 긁어가기 시작하는데, 몇초에 한번씩 접속하는지도 모르겠습니다.
심하면 일초에 몇번도 접속하는 것 같습니다.
한데 로그는 없습니다.
이걸 안것도 실은 사이트에서 저희 사이트를 유입하는 경로를 확인할 수 있기 때문에 가능한 것이고, 뭘로 들어오는지 로그를 봐도 패턴도 없고, 다른 여타의 검색엔진과 패턴이 너무나 다릅니다.
일단 큐로봇에 메일 문의는 드렸습니다.
검색 못하게 하고 싶은데 방법을 모르겠다고..
하지만 소식이 없어서 매우 애매한 실정입니다.
지금도 긁어가고는 있고요...
뭘로 데이터를 긁어가는지 당최 모르겠습니다.
혹시 검색 엔진 이름이나 큐로봇이 저희 사이트를 검색 못하게 하는 방법이 없을까요?
아시는 분 답변 좀 부탁드립니다.
Forums:
robots.txt 파일을 수정해보세요
일반적인 웹로봇을 막을수 있는 방법입니다.
robots.txt 파일을 보고싶은데 혹시 운영하시는 뉴스사이트 주소좀 알수 있을까요?
큐로보
한국어 위키백과에 어떤 검색엔진인지 간단한 설명이 있네요.
http://ko.wikipedia.org/wiki/큐로보
답변 고맙습니다.
일단 사이트는 조금 말씀드리기 그래서요...
robots.txt 파일입니다.
[root@]# vi robot.txt
User-Agent:*
Disallow:/admin/
이렇게 설정되어 있습니다.
저 admin을 빼버려야 하나요?
211.233.79.171 - - [05/Nov/2009:00:01:03 +0900] "GET /robots.txt HTTP/1.1" 200 29 "-" "Mozilla/5.0 (compatible; MSIE or Firefox mutant; not on Windows server; +http://ws.daum.net/aboutWebSearch.html) Daumoa/2.0"
보통은 저희 사이트를 검색할 때 이렇게 해가야 정성이 아닌가요?
이건 다음 서버에서 검색엔진으로 Daumoa 네임을 이렇게 정하고 가져가는 것으로 알고 있습니다.
제가 알기로는 이게 표준으로 알고 있고요...
하지만, 저희 robot.txt 를 한번도 읽어본적이 없는건지 로그가 없습니다.
며칠 주기로 검색해가는 ip address마져도 다른 것 같습니다.
버추얼 아이피를 사용하는 것인지, LG 파워콤 쪽 라인인 것으로 생각은 되는데 패턴이 없다보니 이것도 심증만 가지 물증이 없습니다.
댓글 달기