wget 을 사용해서 가져오기?

BarracuTa의 이미지


http://cafe.naver.com/ArticleRead.nhn?articleid=15724&clubid=10026632

이 url 에 대한 html 소스를 가져오고 싶은데 wget 으로 해보니 실패했습니다. ㅜㅜ

다른 좋은 방법 에대한 조언 부탁드립니다..

마잇의 이미지

네이버 회원이야하고 카페에도 가입해야 볼 수 있는 페이지 입니다. wget으로는 아마 처리가 안 될 겁니다.

브라우저로 열어 보신후 소스를 따로 저장하시면 어떨까요?
--
마잇


--
마잇

sebi184의 이미지

이미 해 보셨을 지도 모르지만..
저도 그런 적이 많아서요..
--help 보시면 user agent 바꿔서 리퀘스트 헤더 날릴 수 있는 옵션이 있습니다.

앗..인증있는 페이지..ㅜㅜ
쿠키 그대로 떠서..80 열어서 직접 리퀘스트 날려야 할지도..

익명사용자의 이미지

IE로 캐쉬된 파일들을 모두 지우고 해당 웹페이지를 읽은다음 IE의 임시파일들을 뒤져보세요.

그게 안되면 마지막으로 직접 패킷을 들여보시는 방법도...^^;

익명사용자의 이미지

최근버전은 옵션에 보시면 세션이랑 쿠키저장할 수가 있습니다.
로그인페이지가셔서 소스를 분석해서 로그인페이지에 로그인정보를 날려서 세션을 저장하고,
다시 저장된 세션으로 페이지를 가져오도록 하면 될껍니다.

BarracuTa의 이미지

http://cafe.naver.com/ArticleRead.nhn?articleid=15724&clubid=10026632

에경우 이미 인증이 된 경우나 전체공개한 게시물에 경우 다음과 같이하면 되더군요

wget --post-data "articleid=15724&clubid=10026632" http://cafe.naver.com/ArticleRead.nhn

로그인에 관해서는 말씀들 하신것처럼 ...
옵션을 찾아 보니 --cashe , --cookies 옵션이 있더군요

다른 조언도 부탁드립니다.

많은 도움 주셔서 감사합니다.

저희 업소를 방문해 주셔서 감사합니다.

저희 업소를 방문해 주셔서 감사합니다.

BarracuTa의 이미지


--save-cookie , --load-cookie 에 대해서 아래와 같이 해보았는데 실패했습니다.

wget --http-user "id" --http--passwd "passwd" --save-cookie "MY" http://naver.com

가르침 주시면 감사하겠습니다. ㅜㅜ

저희 업소를 방문해 주셔서 감사합니다.

저희 업소를 방문해 주셔서 감사합니다.

익명사용자의 이미지

일단 로그인한 세션이 필요합니다.
소스를 열어서 분석해보니 id와 pw란 변수를 사용하더군요. 그리고 로그인페이지 주소는 http://nid.naver.com/nidlogin.login이구요.
그라면 일단 wget으로 이페이지에 id와 pw를 전송하면 됩니다. 이때 옵션으로 --keep-session-cookies <파일명> 을 주면 쿠키파일이 생성될껍니다.
그라고 원하는 페이지를 불러오면서 옵션으로 --load-cookies <파일명> 을 주면 앞에서 저장한 쿠키를 이용해서 로그인한 상태로 만드는게 가능합니다.

BarracuTa의 이미지


http://www.mail-archive.com/wget@sunsite.dk/msg07382.html
요런 글을 발견 했습니다. 안되는 영어지만
1.9 에서 메뉴얼 상에는 포함되어있지만 실제 옵션에는 포함이 안되어있더라고 합니다.

그래서 1.10 을 깔고 해보았습니다.

wget --cache="on" --keep-session-cookies --save-cookie="cookie" --http-user "userid" --http-passwd "userpass" http://nid.naver.com/nidlogin.login

결과는 실패 ㅜㅜ

cookie 파일은 생성 되어지나 빈파일 이었습니다. ㅜㅜ

그래서 다시 삽질하다 post방식으로 그냥 보내기로 했습니다.

wget --cache="on" --keep-session-cookies --save-cookie="cookie" --post-data="id=userid&pw=userpw" http://nid.naver.com/nidlogin.login

결과는 성공 ㅡㅜ

근데 위 방식이 보안상 좀 불안한데 ....

첫번째 방법이 왜 실패될까요?? 잘 못했으니 실패겠지만 ......

도움 부탁드립니다.
저희 업소를 방문해 주셔서 감사합니다.

저희 업소를 방문해 주셔서 감사합니다.

익명사용자의 이미지

서버에서 로그인처리는 보통 서버측 스크립트에서 브라우저에서 넘어온 변수를 이용해서 처리합니다.
그래서 스니핑의 위험이 있기때문에 요새 포털사이트들은 보안접속을 선택하면 별도의 암호화를 하기도 하지만 대부분의 사이트들은 평범한 패킷에 아이디와 비밀번호를 실어보내죠. -_-;

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.