[완료] urllib2, BeautifulSoup, 혹은 어딘가에서 한글이 쪼개집니다.
글쓴이: keizie / 작성시간: 화, 2007/06/05 - 5:33오전
파이썬에서 urllib2로 읽어온 소스를 BeautifulSoup에 먹이고 거기서 정보를 뽑아내 PyRSS2Gen으로 RSS 파일을 만들어주는 작업인데, 먼저 했던 다른 주소는 원본에서 뽑아낸 한글을 잘 보여줍니다.
그런데 어떤 거는 한글이 뭉치질 못하고 쪼개집니다. urllib2가 7비트로 처리하는가 싶었는데, 잘 되는 녀석도 7비트로 나와서 이 문제는 아닌 걸로 판단하고 있습니다.
뭘 잘못하고 있는지, 어떻게 바꾸면 되는지 도움을 얻고 싶습니다.
(원래 있던 링크는 더 이상 유효하지 않아 지웠습니다)
Forums:
소스에 적혀 있는
소스에 적혀 있는 URL에 가서 인코딩을 확인해보니 EUC-KR로 되어 있네요.
BeautifulSoup의 문서를 보면 파싱엔진으로 내용을 넘길때에 내용의 인코딩을 같이 넘길 수 있게 되어 있습니다.
위와 같이 하면 page의 내용을 EUC-JP인코딩으로 이해하고 파싱을 합니다..
urllib로 웹 페이지를 가져올때 리턴되는 헤더의 인코딩 값을 받아서 위와 같은 방법으로 BeautifulSoup에 넘겨주면 해결이 될 듯 합니다.
한 걸음 더 가까이
정해주니까 잘 됩니다.
고맙습니다.
다만, soup 전에 즉 urllib2 단계에서 헤더 어딘가나 혹은 태그에 적힌 인코딩 값을 알아내는 건 힘들 것 같아 그냥 적어주기로 했습니다.
댓글 달기