웹 로봇이 이런 방식으로 문서를 수집하고 있는것으로 압니다 혹시 공부할수 있는 웹 문서가 있을까요? 로봇을 만드려는게 아니고 단순히 어느 페이지 요청하면 어떤 값이 넘어오고 이부분만 공부하려고 합니다.
Crawler 만드시는게 아니라면
제일 간단한 방법은 그냥 패킷캡쳐 프로그램을 이용해서 어떤 페이지를 이동했을때 어떤 헤더(Header)가 넘어가는지 캐취하셔가지고 프로그램을 만들어 보시는게 좋을것 같군요.
좀더 심도 있게 알고 싶으시면 HTTP 프로토콜에 대해서 공부하시는게 좋습니다. Cralwer 제작 하시려면 머리가 좀더 아프죠.HTML파싱까지도 해야 되니까요.
http://www.w3.org/Protocols/
HTTP가 뭔지를 알아야 web robot을 만들 수 있죠.
이미 만들어져 있는 web robot를 가지고 crawling을 할 수는 있겠지만, athxue님의 관심사는 HTTP에 있는 것 같네요.
제 경우엔 장비에 들어갈 웹서버를 구현한 적이 있습니다. 윗 분도 쓰셨다시피 HTTP 프로토콜에 대해서 파악을 하셔야 할 것 같습니다. TCP/IP illustrate라는 책을 참고하세요.
HTTP를 공부하실 요량이라면 RFC 2616번을 읽는게 가장 좋지 않을까요?
텍스트 포맷에 대한 자세한 정보
<code>
<blockcode>
<apache>
<applescript>
<autoconf>
<awk>
<bash>
<c>
<cpp>
<css>
<diff>
<drupal5>
<drupal6>
<gdb>
<html>
<html5>
<java>
<javascript>
<ldif>
<lua>
<make>
<mysql>
<perl>
<perl6>
<php>
<pgsql>
<proftpd>
<python>
<reg>
<spec>
<ruby>
<foo>
[foo]
...
Crawler 만드시는게 아니라면
제일 간단한 방법은 그냥 패킷캡쳐 프로그램을 이용해서 어떤 페이지를 이동했을때 어떤 헤더(Header)가 넘어가는지 캐취하셔가지고 프로그램을 만들어 보시는게 좋을것 같군요.
좀더 심도 있게 알고 싶으시면 HTTP 프로토콜에 대해서 공부하시는게 좋습니다. Cralwer 제작 하시려면 머리가 좀더 아프죠.HTML파싱까지도 해야 되니까요.
이런 건 표준 스펙을 읽어보는 게 좋습니다.
http://www.w3.org/Protocols/
HTTP가 뭔지를 알아야 web robot을 만들 수 있죠.
이미 만들어져 있는 web robot를 가지고 crawling을 할 수는 있겠지만, athxue님의 관심사는 HTTP에 있는 것 같네요.
TCP/IP illustrate
제 경우엔 장비에 들어갈 웹서버를 구현한 적이 있습니다.
윗 분도 쓰셨다시피 HTTP 프로토콜에 대해서 파악을 하셔야 할 것 같습니다.
TCP/IP illustrate라는 책을 참고하세요.
RFC 2616번을 읽어야 하지 않을까요?
HTTP를 공부하실 요량이라면 RFC 2616번을 읽는게 가장 좋지 않을까요?
댓글 달기