[완료] RSS에서 페이지를 받아보는데, 이런 문자열은 어떻게 변환하죠?

글쓴이: readme / 작성시간: 금, 2011/12/23 - 2:24오전

RSS를 wget으로 페이지를 다운받아서 보니까 한글대신 다음과 같은 문자열이 길게 있더군요

(XML선언에 보면 로케일은 일단 UTF8이라고 나옵니다.

그리고 자동변환을 막기위해서 ;,<,>, 앞에 공백을 넣었습니다)

< title >&#51221 ;&#51032 ;&#46976 ; ...... < /title >

물론 파이어폭스에서 그 RSS페이지를 열어보면, 제대로 글자가 잘 나옵니다.

대체 저런문자를 일반문자로 정상적으로 가져오려면 어떻게 해야할까요?

iconv로 바꿀려고 해도, 대체 어떻게 바꿔야 할지 몰라서 고민이에요 (정확한 로케일(?) 옵션(?) 을 모르니)

(어짜피 결과만 얻으면 되니까, 어지간하면 직접 코딩안하고 하려고요)

혹시 조금이라도 아시는분이 계시면 도움을 좀 주세요.

Forums:

설치 및 활용 QnA

댓글 달기

51221, 51032, 46976 은 "정의란"

글쓴이: 익명 사용자 / 작성시간: 금, 2011/12/23 - 3:04오전

51221, 51032, 46976 은 "정의란" 이군요.

"정"의 유니코드가 십진수로 51221 입니다.

http://en.wikipedia.org/wiki/List_of_XML_and_HTML_character_entity_references

을 참고하면 되겠네요.

htmlentities python, htmlentities ruby, htmlentities perl 등으로 검색해 보시면 여러 라이브러리가 검색됩니다.

답글

이걸 htmlentitiles라고 부르는거

글쓴이: readme / 작성시간: 금, 2011/12/23 - 11:35오전

이걸 htmlentitiles라고 부르는거 였네요;;

구글에서 찾아보니 "recode"라는게 있었네요.

$ cat source.rss | recode HTML_4.0

요렇게 하니깐 한글제대로 잘 가지고 오네요 ^^

조언 감사합니다~

답글

댓글 달기

이름

제목

댓글 *

텍스트 포맷에 대한 자세한 정보

텍스트 양식

Filtered HTML

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
You can use Textile markup to format text.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
Quick Tips:
- Two or more spaces at a line's end = Line break
- Double returns = Paragraph
- *Single asterisks* or _single underscores_ = Emphasis
- **Double** or __double__ = Strong
- This is [a link](http://the.link.example.com "The optional title text")
For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

HTML 태그를 사용할 수 없습니다.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
줄과 단락은 자동으로 분리됩니다.

CAPTCHA

이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.

부 메뉴

[완료] RSS에서 페이지를 받아보는데, 이런 문자열은 어떻게 변환하죠?

51221, 51032, 46976 은 "정의란"

이걸 htmlentitiles라고 부르는거

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

둘러보기

부 메뉴

현재 위치

[완료] RSS에서 페이지를 받아보는데, 이런 문자열은 어떻게 변환하죠?

51221, 51032, 46976 은 "정의란"

이걸 htmlentitiles라고 부르는거

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

검색 폼

둘러보기

사용자 로그인

Oauth2 Login :