[완료] RSS에서 페이지를 받아보는데, 이런 문자열은 어떻게 변환하죠?
글쓴이: readme / 작성시간: 금, 2011/12/23 - 2:24오전
RSS를 wget으로 페이지를 다운받아서 보니까 한글대신 다음과 같은 문자열이 길게 있더군요
(XML선언에 보면 로케일은 일단 UTF8이라고 나옵니다.
그리고 자동변환을 막기위해서 ;,<,>, 앞에 공백을 넣었습니다)
< title >정 ;의 ;란 ; ...... < /title >
물론 파이어폭스에서 그 RSS페이지를 열어보면, 제대로 글자가 잘 나옵니다.
대체 저런문자를 일반문자로 정상적으로 가져오려면 어떻게 해야할까요?
iconv로 바꿀려고 해도, 대체 어떻게 바꿔야 할지 몰라서 고민이에요 (정확한 로케일(?) 옵션(?) 을 모르니)
(어짜피 결과만 얻으면 되니까, 어지간하면 직접 코딩안하고 하려고요)
혹시 조금이라도 아시는분이 계시면 도움을 좀 주세요.
Forums:
51221, 51032, 46976 은 "정의란"
51221, 51032, 46976 은 "정의란" 이군요.
"정"의 유니코드가 십진수로 51221 입니다.
http://en.wikipedia.org/wiki/List_of_XML_and_HTML_character_entity_references
을 참고하면 되겠네요.
htmlentities python, htmlentities ruby, htmlentities perl 등으로 검색해 보시면 여러 라이브러리가 검색됩니다.
이걸 htmlentitiles라고 부르는거
이걸 htmlentitiles라고 부르는거 였네요;;
구글에서 찾아보니 "recode"라는게 있었네요.
$ cat source.rss | recode HTML_4.0
요렇게 하니깐 한글제대로 잘 가지고 오네요 ^^
조언 감사합니다~
댓글 달기