웹서치관련 프로그램 질문??

csk6124의 이미지

요번에 c++로 프로그램을 짜려고생각중에 1가지 주제를 정했습니다.
모든사이트에 있는 엑티브엑스를 찾는겄입니다.
음.. 좀.. 뭐하기도 하지만.. 정한 마당에... 일단 계획을 짜보구 하는데.. 너무 막막해서 이렇게 올립니다.
이건말도 안돼 실력도 없으면 다른거해요..
이런말씀은 해주지 마세요 ^^;;

첫번째문제, 모든사이트를 찾아야 하는 로직과 방법
이부분을 생각해봐도 잘모르겠더군요...

두번째. 모든사이트에서 1나의 사이트에 들어와서 index페이지에서 링크걸린페이지를 읽어서 해당 키워드가 있는 페이지를 디비에 넣어야 하는데.. 이부분은 spider관련된 부분같더군요..
아직 초짜라.. 해당페이지를 어떻게 가죠오구.. 해야 하는지 약간의 생각은 있지만.. 다른 좋은의견을 듣고 싶네요..

세번째는, 데이타베이스 구성및 인텍스 등등 어떤구조로 하시는지.
모든사이트를 돈다는건 좀 생각해봐도 좀 무리같기도 하구..
어떤방식으로 구글은 웹페이지를 가져와서 뿌려주는지..
등록절차를 하면서 하는것이 아닌 무작정가서 웹페이지를 가죠온느것같은데.. 정확히는 잘모르겄네요..
이러한 전반적인 웹서치관련 프로그램 로직이나 방법을 좀...
자료나.. 좋은 정보좀 어떻게 안될까 해서 올립니다.
날씨도 좋은데.. 오늘도 수고하시구.. 정말 좋은답변 부탁드립니다. ^^

익명 사용자의 이미지

단순히 모든 사이트를 찾으려면...

256x256x256x256 아닐까요? (2의 32제곱?)

그런데 저건 일반적으로 그렇다는 거구...실제로는 또 같은 IP대에서도 포트별로 서비스를 구분할 수도 있는 거니깐, 거의 상상할 수 없을만큼 많은 사이트가 존재할 겁니다.
또, 그 사이트에 포함된 페이지들도 있을 거구요, 그러면 DB용량이 얼마나 되어야 할까요..

보통 검색 사이트들은 평소에 웹봇을 돌려서 사이트 정보를 긁어놨다가 이용합니다. 또는 사이트들로부터 등록을 받기도 하지요. 웹봇에 관련된 소스들은 많을 것 같으니 한번 찾아보시는 것도 좋겠네요. :)

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.