안녕하세요..웹은 하나도 몰라서 글 올려봅니다...선배님들..개발 고수님들 부탁드려요..

shtlcks의 이미지

안녕하세요..개발에 관심있는 일 인 입니다.
일단 제가 다 알아보지 못하고 이런 사이트에 제 고민을 올리게 된 점
굉장히 죄송하게 생각합니다...
일단 검색 실력이 없고...잘 모르는 제 불찰
인정하고 여쭤보겠습니다...ㅠㅠ

제가 요즘 개발해보고 싶은 것은 웹 입니다..
다름이 아니고 웹이 거의 html,자바스크립트, php를 이용해서 하는 것을 압니다만..
저는 단순 홈페이지를 만드는 것이 목적이 아니라 이렇게 글을 올립니다

예를들어 a,b,c 이 세개의 사이트에서
연필이라는 물건을 100원 200원 300원에 판다고 가정합니다.

그럼 제가 만든 웹 사이트에서는
a,b,c 세가지 물건을 동시에 비교해서
가격은 어디가 제일 싸고 거래량은 어디가 제일 많고
이런 것을 해보고 싶습니다..

알아 본 결과 서버와 db쪽을 건드려야 한다고하는데
전혀 읽어도 이해가 가지 않습니다.

고수님들 가르쳐 주시면
즉 전체 틀만 좀 던저주신다면
그 틀을 제가 생각해서
알아 볼거 알아보고
그 틀에 세부적인 내용좀 알아보고 싶습니다..

부탁인데 제발 좀 도와주세요...ㅠㅠ감사합니다...

마잇의 이미지

a, b, c 사이트가 글쓰신 분과 관련이 없는 사이트이고 외부에서 접근해서 사용할 수 있는 공식적인 API가 없으면 편법으로 그냥 페이지를 긁어다가 분석해서 원하는 데이터를 추출해야 됩니다.

function euler --description 'euler N : Retrieve http://projecteuler.net Nth problem'
	curl -s http://projecteuler.net/problem=$argv | \ -> curl로 페이지 전체를 받아와서
    xidel --css="div.problem_content p" -q - ^ /dev/null | \ -> xidel로 원하는 항목만을 뽑아 냅니다.
    sed -e 's/$/\n/'
end

저는 쉘에서 쓰기 위해서 curl과 xidel을 이용 했는데 어떤 언어로 작업을 하시던 같은 기능을 하는 라이브러리들이 있습니다.

브라우저로 페이지에 접속해서 원하는 부분을 복사 후 붙여넣기 하는 과정을 자동화 시킨다고 생각 하시면 됩니다. 편법이라는 말에서 짐작하실 수 있겠지만 페이지 구조나 디자인이 바뀌는 것에 대해서 계속 신경써줘야 하고 결정적으로 해당 사이트에서 차단을 당할 수도 있습니다. 사이트 관리자가 보기에 정상적인 고객이 아니고 데이터 긁어가는 봇이라고 생각하면 언제든 차단 조치를 당할 수 있겠지요.

공식적인 API가 있어도 작업 내용은 크게 달라지지 않습니다. 데이터 받아와서 가공, 저장. 하지만 훨씬 더 신뢰성이 있고 가공하기도 편해 집니다.

이 부분을 안정적으로 구현 하시면 나머지 부분은 일반적인 웹 사이트 개발과 크게 다르지 않을 것 같습니다.


--
마잇

simminjo의 이미지

좀 다르지만......웹툰사이트에서 웹툰 추출해서 제가 필요한것들만 요래조래 하는 작업을 해본적이 있었는데
regex( 정규표현식 )을 쓸줄알면 매우 편리하게 작업하실 수 있습니다.

윗분 말씀대로 공식적으로 API가 제공된다면 json, xml타이으로 데이터를 수신해서 처리할 수도 있겠으나, 그렇지 않다면
html을 가져와서 파싱해야 하거든요.

php, jsp, asp 모든언어에서 처리가 가능합니다.

---------------------------------------------------------------
Opensource에 기여하는 것이 꿈입니다.
내가 만든 코드를 모두가 사용할 때 까지~

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.