[python] xml 한글처리에 관해 질문드립니다.

글쓴이: jafe1210 / 작성시간: 금, 2015/09/11 - 11:16오전

Python을 이용한 프로그램 개발중에 막히는 XML문서처리에서 막히는 부분이 있어 질문을 올립니다.

파이선버전은 2.7.1버전입니다. 그리고 사용중인 파서는 from xml.etree import ElementTree 입니다.

XMLParser에서 한글이 포함된 문서를 처리하지 못하는 증상이 있습니다.

그래서 XML에서 읽어온 한글이 포함된 데이터를 아래와 같으느 코드로 EUC-KR로 인코딩하려고 하니

f = open('../XMLSpec/ObjectIssueTrackerSearch.xml', 'r')
data = f.read()
data = unicode(data, 'euc-kr')

UnicodeDecodeError: 'euc_kr' codec can't decode bytes in position 2-3: illegal multibyte sequence 이란 메세지가 뜹니다....

검색을 해봐도 답이 안나옵니다.

어떻게 해야 한글이 포함된 내용을 파싱할 수 있을까요?

Forums:

프로그래밍 QnA

댓글 달기

파이썬 3 이전 버전은 문자열 처리를 1바이트 단위를

글쓴이: twinwings / 작성시간: 금, 2015/09/11 - 2:58오후

파이썬 3 이전 버전은 문자열 처리를 1바이트 단위를 기본으로 삼고 있는걸로 알고 있습니다.

해당 코드를 파이썬 3에서 돌려보셨나요

답글

http://nonstop.pe.kr/python/7

글쓴이: twinwings / 작성시간: 금, 2015/09/11 - 3:01오후

http://nonstop.pe.kr/python/7768

에 비슷한 에러를 처리하는 포스팅이 있군요

답글

감사합니다.

글쓴이: jafe1210 / 작성시간: 월, 2015/09/14 - 10:18오전

위의 포스팅대로 해봣는데 잘 안되네요....ㅠ
무언가 방법이 있겠죠?

답글

그게...

글쓴이: jafe1210 / 작성시간: 월, 2015/09/14 - 10:17오전

저도 파이선3 이후 버전에서 인코딩 문제를 해결 할 수 있는 걸 알고 있긴한데;;
지금 개발중인 코드가 2.6버전에서 돌아가는 것을 목표로 개발중이어서요 ㅠㅠ

답글

댓글 달기

이름

제목

댓글 *

텍스트 포맷에 대한 자세한 정보

텍스트 양식

Filtered HTML

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
You can use Textile markup to format text.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
Quick Tips:
- Two or more spaces at a line's end = Line break
- Double returns = Paragraph
- *Single asterisks* or _single underscores_ = Emphasis
- **Double** or __double__ = Strong
- This is [a link](http://the.link.example.com "The optional title text")
For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

HTML 태그를 사용할 수 없습니다.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
줄과 단락은 자동으로 분리됩니다.

CAPTCHA

이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.

부 메뉴

[python] xml 한글처리에 관해 질문드립니다.

파이썬 3 이전 버전은 문자열 처리를 1바이트 단위를

http://nonstop.pe.kr/python/7

감사합니다.

그게...

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

둘러보기

부 메뉴

현재 위치

[python] xml 한글처리에 관해 질문드립니다.

파이썬 3 이전 버전은 문자열 처리를 1바이트 단위를

http://nonstop.pe.kr/python/7

감사합니다.

그게...

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

검색 폼

둘러보기

사용자 로그인

Oauth2 Login :