[python] xml 한글처리에 관해 질문드립니다.
글쓴이: jafe1210 / 작성시간: 금, 2015/09/11 - 11:16오전
Python을 이용한 프로그램 개발중에 막히는 XML문서처리에서 막히는 부분이 있어 질문을 올립니다.
파이선버전은 2.7.1버전입니다. 그리고 사용중인 파서는 from xml.etree import ElementTree 입니다.
XMLParser에서 한글이 포함된 문서를 처리하지 못하는 증상이 있습니다.
그래서 XML에서 읽어온 한글이 포함된 데이터를 아래와 같으느 코드로 EUC-KR로 인코딩하려고 하니
f = open('../XMLSpec/ObjectIssueTrackerSearch.xml', 'r')
data = f.read()
data = unicode(data, 'euc-kr')
UnicodeDecodeError: 'euc_kr' codec can't decode bytes in position 2-3: illegal multibyte sequence 이란 메세지가 뜹니다....
검색을 해봐도 답이 안나옵니다.
어떻게 해야 한글이 포함된 내용을 파싱할 수 있을까요?
Forums:
파이썬 3 이전 버전은 문자열 처리를 1바이트 단위를
파이썬 3 이전 버전은 문자열 처리를 1바이트 단위를 기본으로 삼고 있는걸로 알고 있습니다.
해당 코드를 파이썬 3에서 돌려보셨나요
http://nonstop.pe.kr/python/7
http://nonstop.pe.kr/python/7768
에 비슷한 에러를 처리하는 포스팅이 있군요
감사합니다.
위의 포스팅대로 해봣는데 잘 안되네요....ㅠ
무언가 방법이 있겠죠?
그게...
저도 파이선3 이후 버전에서 인코딩 문제를 해결 할 수 있는 걸 알고 있긴한데;;
지금 개발중인 코드가 2.6버전에서 돌아가는 것을 목표로 개발중이어서요 ㅠㅠ
댓글 달기