웹서치관련 프로그램 질문??
글쓴이: csk6124 / 작성시간: 목, 2005/04/28 - 9:17오전
요번에 c++로 프로그램을 짜려고생각중에 1가지 주제를 정했습니다.
모든사이트에 있는 엑티브엑스를 찾는겄입니다.
음.. 좀.. 뭐하기도 하지만.. 정한 마당에... 일단 계획을 짜보구 하는데.. 너무 막막해서 이렇게 올립니다.
이건말도 안돼 실력도 없으면 다른거해요..
이런말씀은 해주지 마세요 ^^;;
첫번째문제, 모든사이트를 찾아야 하는 로직과 방법
이부분을 생각해봐도 잘모르겠더군요...
두번째. 모든사이트에서 1나의 사이트에 들어와서 index페이지에서 링크걸린페이지를 읽어서 해당 키워드가 있는 페이지를 디비에 넣어야 하는데.. 이부분은 spider관련된 부분같더군요..
아직 초짜라.. 해당페이지를 어떻게 가죠오구.. 해야 하는지 약간의 생각은 있지만.. 다른 좋은의견을 듣고 싶네요..
세번째는, 데이타베이스 구성및 인텍스 등등 어떤구조로 하시는지.
모든사이트를 돈다는건 좀 생각해봐도 좀 무리같기도 하구..
어떤방식으로 구글은 웹페이지를 가져와서 뿌려주는지..
등록절차를 하면서 하는것이 아닌 무작정가서 웹페이지를 가죠온느것같은데.. 정확히는 잘모르겄네요..
이러한 전반적인 웹서치관련 프로그램 로직이나 방법을 좀...
자료나.. 좋은 정보좀 어떻게 안될까 해서 올립니다.
날씨도 좋은데.. 오늘도 수고하시구.. 정말 좋은답변 부탁드립니다. ^^
Forums:
단순히 모든 사이트를 찾으려면...256x256x256x256
단순히 모든 사이트를 찾으려면...
256x256x256x256 아닐까요? (2의 32제곱?)
그런데 저건 일반적으로 그렇다는 거구...실제로는 또 같은 IP대에서도 포트별로 서비스를 구분할 수도 있는 거니깐, 거의 상상할 수 없을만큼 많은 사이트가 존재할 겁니다.
또, 그 사이트에 포함된 페이지들도 있을 거구요, 그러면 DB용량이 얼마나 되어야 할까요..
보통 검색 사이트들은 평소에 웹봇을 돌려서 사이트 정보를 긁어놨다가 이용합니다. 또는 사이트들로부터 등록을 받기도 하지요. 웹봇에 관련된 소스들은 많을 것 같으니 한번 찾아보시는 것도 좋겠네요. :)
댓글 달기