웹사이트 내용을 가져오기 c++프로그램으로...
글쓴이: csk6124 / 작성시간: 목, 2005/04/28 - 2:32오후
c++로 작성하려고 합니다 현재 배운것도 c++이구요
저가 하고자 하는것은
웹사이트를 넣으면 해당 사이트에 있는 내용을 검사하여 일치하는 문서의 주소는 디비에 저장하려고 합니다.
index.html을 찾아 문서내용을 보구 만약 링크가 걸려져 있으면 링크를 따라 다른문서사이트의 검색어랑 비교하여 맞으면 디비입력 이런식으로 꼬리를 물어서 하는 방식으로 저가 원하는 키워드의 문서주소를 디비에 저장하는프로그램을 하려고 하는데..
웹사이트 문서를 어떻게 가져와서 검사를 하는지..
궁금해서 이렇게 올립니다...
Forums:
C++이라고 별다른 방법이 있는 것은 아닙니다.가볍게 하시려면 소켓사
C++이라고 별다른 방법이 있는 것은 아닙니다.
가볍게 하시려면 소켓사용하셔서 접속하신다음에 while로 문서 내용 가져온 다음 파싱해서 url들을 검색하시고 겸사겸사 가져온 문서 내용을 검색하여 원하는 문자열을 찾고 파싱한 url을 분석하여 같은 사이트(사이트 주소를 기준으로 하면됩니다)의 문서파일(html, txt, htm, php, php3 등등이 있겠죠) 링크들을 추린 다음에 앞서와 같은 방식으로 다시 작업하도록 만들면 됩니다.
중간에 링크를 분석하는데로 자식프로세스(혹은 쓰레드)에게 그 작업을 시키는 방식으로 하시면 될 것 같습니다.
---------
Byeongweon Moon
http://tasy.jaram.org/blog
사랑하면 알게 되고 알면 보이나니 그때에 보이는 것은 전과 같지 않으리라.
[code:1][nthroot@madnom nthroot	
이 부분을 소켓으로 구현하시면 됩니다.
자세한건 http 1.0 rfc 를 보시면 되구요
------식은이 처------
길이 끝나는 저기엔 아무 것도 없어요. 희망이고 나발이고 아무 것도 없어.
[url=http://wget.sunsite.dk/]wget source
wget source를 분석하시는 것도 도움이 될 것 같군요.
C FAQ: http://www.eskimo.com/~scs/C-faq/top.html
Korean Ver: http://cinsk.github.io/cfaqs/
w3c에서 배포하는 Libwww을 써보시는건 어떨까요?C언어 라이
w3c에서 배포하는 Libwww을 써보시는건 어떨까요?
C언어 라이브러리니까 C++에서도 별문제 없을 것 같군요.
http://www.w3.org/Library/
댓글 달기