[완료] Python으로 HTML을 긁어오는 프로그램을 짜고있는데요..

thdwjddn123의 이미지

HTML을 긁어오고싶은데 POST인증방식때문에 첫페이지만 접근이 됩니다.
로그인은 아니구요 HTML 소스코드를 예를들자면

<form method="POST">
<input id="enterbutton" type="submit" name="user_choice" value="Enter" />
</form>

이런식으로 되있구요 저 버튼을 눌러야만 메인페이지로 접근이 가능합니다(url은 누른후나 누르기전이나 같아요.).
이런 경우 해당 사이트에 접근하여 코드를 긁어오고 싶으면 어떻게해야하나요?
lazycoder의 이미지

mechanize 쓰시면 될겁니다.

ptmono의 이미지

webkit 같은 layout engine을 이용하는 것도
손쉽습니다.
------------------------------------------
emacs user

------------------------------------------
emacs user

mogi의 이미지

pycurl을 사용하시면 됩니다.
아래 예제를 첨부하였으나 정확히 작동하는지 검증 하지 않았습니다.
자세한 내용을 링크를 참조하시면 됩니다.
http://curl.haxx.se/libcurl/c/libcurl-tutorial.html

import pycurl
import urllib
from StringIO import StringIO
 
curl = pycurl.Curl()
 
html = StringIO()  #curl로 웹페잊 접속후 html 소스를 받아오기 위한 StringIO 객체 선언
referer = "http://www.xxx.com"  #이전페이지
url = "http://www.aaa.com" #실제 접속할 페이지
cookieFile = ".cookie" #쿠키파일명
userAgent = "웹브라우저 이름"   #웹브라우저이름
 
#폼필드
formFields = {"user_choice":"user_choice value"}
 
curl.setopt(pycurl.USERAGENT, userAgent)
curl.setopt(pycurl.HEADER, 0)
curl.setopt(pycurl.TIMEOUT, 120)
curl.setopt(pycurl.COOKIEFILE, cookieFile)
curl.setopt(pycurl.COOKIEJAR, cookieFile)
curl.setopt(pycurl.FOLLOWLOCATION, 1)
curl.setopt(pycurl.REFERER, referer)
curl.setopt(pycurl.POSTFIELDS, urllib.urlencode(formFields))
curl.setopt(pycurl.URL, url)
curl.setopt(pycurl.WRITEFUNCTION, html.write)
curl.perform()
effectiveUrl = curl.getinfo(pycurl.EFFECTIVE_URL) #서버에서 페이지 주소를 변경 할경우 실제 접속한 페이지 정보
httpCode = curl.getinfo(pycurl.HTTP_CODE) #200, 40x, 50x등 http 에러 코드
curl.close()
 
print html.getvalue()
thdwjddn123의 이미지

답변 모두 감사드립니다.
잘 해결했습니다~!

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.