[완료] urllib2, BeautifulSoup, 혹은 어딘가에서 한글이 쪼개집니다.

글쓴이: keizie / 작성시간: 화, 2007/06/05 - 5:33오전

파이썬에서 urllib2로 읽어온 소스를 BeautifulSoup에 먹이고 거기서 정보를 뽑아내 PyRSS2Gen으로 RSS 파일을 만들어주는 작업인데, 먼저 했던 다른 주소는 원본에서 뽑아낸 한글을 잘 보여줍니다.

그런데 어떤 거는 한글이 뭉치질 못하고 쪼개집니다. urllib2가 7비트로 처리하는가 싶었는데, 잘 되는 녀석도 7비트로 나와서 이 문제는 아닌 걸로 판단하고 있습니다.

뭘 잘못하고 있는지, 어떻게 바꾸면 되는지 도움을 얻고 싶습니다.

(원래 있던 링크는 더 이상 유효하지 않아 지웠습니다)

Forums:

프로그래밍 QnA

댓글 달기

소스에 적혀 있는

글쓴이: 세이군 / 작성시간: 화, 2007/06/05 - 8:49오후

소스에 적혀 있는 URL에 가서 인코딩을 확인해보니 EUC-KR로 되어 있네요.
BeautifulSoup의 문서를 보면 파싱엔진으로 내용을 넘길때에 내용의 인코딩을 같이 넘길 수 있게 되어 있습니다.

soup = BeautifulSoup(page, fromEncoding="euc-jp")

위와 같이 하면 page의 내용을 EUC-JP인코딩으로 이해하고 파싱을 합니다..
urllib로 웹 페이지를 가져올때 리턴되는 헤더의 인코딩 값을 받아서 위와 같은 방법으로 BeautifulSoup에 넘겨주면 해결이 될 듯 합니다.

한 걸음 더 가까이

답글

정해주니까 잘 됩니다.

글쓴이: keizie / 작성시간: 수, 2007/06/06 - 1:12오전

고맙습니다.

다만, soup 전에 즉 urllib2 단계에서 헤더 어딘가나 혹은 태그에 적힌 인코딩 값을 알아내는 건 힘들 것 같아 그냥 적어주기로 했습니다.

답글

댓글 달기

이름

제목

댓글 *

텍스트 포맷에 대한 자세한 정보

텍스트 양식

Filtered HTML

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
You can use Textile markup to format text.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
Quick Tips:
- Two or more spaces at a line's end = Line break
- Double returns = Paragraph
- *Single asterisks* or _single underscores_ = Emphasis
- **Double** or __double__ = Strong
- This is [a link](http://the.link.example.com "The optional title text")
For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

HTML 태그를 사용할 수 없습니다.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
줄과 단락은 자동으로 분리됩니다.

CAPTCHA

이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.

부 메뉴

[완료] urllib2, BeautifulSoup, 혹은 어딘가에서 한글이 쪼개집니다.

소스에 적혀 있는

정해주니까 잘 됩니다.

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

둘러보기

부 메뉴

현재 위치

[완료] urllib2, BeautifulSoup, 혹은 어딘가에서 한글이 쪼개집니다.

소스에 적혀 있는

정해주니까 잘 됩니다.

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

검색 폼

둘러보기

사용자 로그인

Oauth2 Login :