파이썬 웹 크롤링에대해 질문드립니다.

글쓴이: rladmsxor93 / 작성시간: 수, 2018/02/07 - 12:31오전

제가 멜론의 장르페이지의 발라드 부분을 크롤링을 해보고 있습니다.(http://www.melon.com/genre/song_list.htm?gnrCode=GN0100)

그런데 첫번째 페이지를 크롤링하고 자동으로 2번페이지를 넘어가서 크롤링해보면 첫번째 페이지가 다시 크롤링이 됩니다.
마찬가지로 다른페이지를 크롤링해도 결과는 같습니다. url아무리 확인해도 틀린곳은 없었습니다.
이럴땐 뭐가 문제인건가요?

import requests
from bs4 import BeautifulSoup
 
def changeHeader():
    session = requests.Session()
    headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
               "Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
               "Accept-Language" : "ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7" }
 
    url = "http://www.melon.com/genre/song_list.htm?gnrCode=GN0100&dtlGnrCode=#params%5BgnrCode%" \
          "5D=GN0100&params%5BdtlGnrCode%5D=&params%5BorderBy%" \
          "5D=NEW&params%5BsteadyYn%5D=N&po=pageObj&" \
          "startIndex=51" //startIndex부분만 50씩 증감하여 페이지를 이동
    req = session.get(url, headers = headers)
    return req
 
def main():
 
    req = changeHeader()
 
    try:
        bsobj = BeautifulSoup(req.text, 'html.parser')
    except AttributeError as e:
        print(e)
 
    for title in bsobj.findAll("div",{"class": "ellipsis rank01"}):
        print(title.find("a").get_text())
 
    for singer in bsobj.findAll("div",{"class":"ellipsis rank02"}):
        print(singer.find("a").get_text())
 
if __name__ == '__main__':
    main()

p.s질문을 올리고 혹시이것때문인가 해서 추가로 수정하겠습니다.

<a href = "javascript:pageObj.sendPage('51');">2</a>
<a href = "javascript:pageObj.sendPage('101');">3</a>
<a href = "javascript:pageObj.sendPage('151');">4</a>
<a href = "javascript:pageObj.sendPage('201');">5</a>
.....

소스를 확인해보니 페이지 이동하는 부분이 자바스크립트로 링크가 되어있더군요.(맞는표현인지는모르겠지만)
만약 이것때문이라면 문제를 어떠한 방법으로 해결해야 하나요?

Forums:

프로그래밍 QnA

댓글 달기

해결했습니다^^

글쓴이: rladmsxor93 / 작성시간: 수, 2018/02/07 - 2:13오후

셀레니움으로 페이지 전환 하였습니다.

답글

댓글 달기

이름

제목

댓글 *

텍스트 포맷에 대한 자세한 정보

텍스트 양식

Filtered HTML

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
You can use Textile markup to format text.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
Quick Tips:
- Two or more spaces at a line's end = Line break
- Double returns = Paragraph
- *Single asterisks* or _single underscores_ = Emphasis
- **Double** or __double__ = Strong
- This is [a link](http://the.link.example.com "The optional title text")
For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

HTML 태그를 사용할 수 없습니다.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
줄과 단락은 자동으로 분리됩니다.

CAPTCHA

이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.

부 메뉴

파이썬 웹 크롤링에대해 질문드립니다.

해결했습니다^^

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

둘러보기

부 메뉴

현재 위치

파이썬 웹 크롤링에대해 질문드립니다.

해결했습니다^^

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

검색 폼

둘러보기

사용자 로그인

Oauth2 Login :