문자열변환(CP949 --> CP932)
글쓴이: rokmn3309 / 작성시간: 수, 2006/11/08 - 8:06오후
안녕하세요...
텍스트 데이터를 변환해볼려고 합니다.
원본은 CP932(일본어)인데 DB에 들어가 있는 형태는 CP949로 들어가 있습니다.
어떻게 해서 들어갔는지는 모르겠지만은.. 이 내용을 원래 CP932로 변환할려고 하는데 안되고 있습니다.
예를 들어서 설명드리면은
현재 나오는게 릐 (&# 47504;) 로 나옵니다.
이것이 CP949에서는 906C이고요, UTF는 U+B990입니다.
CP932에서 906C로 찾아보면 값은 人 (&# 20154;) 이고 U+4EBA입니다. 글자는 人로 원래 입력했던 글자입니다.
데이터를 읽어와서 CP949에서의 위치를 확인후, CP932에서 그 위치에 있는 값을 읽어와서 바꿀려고 하는데
어떻게 진행을 해야할지 모르겠군요...참고될만한 자료가 있다면 부탁드리겠습니다.
Forums:
원본이 CP932로 들어가 있는 것 같습니다.
이미 CP932(일본어)로 원본이 들어가 있는 것으로 보입니다.
이를 CP949인 한글 윈도(맞나요?)에서 보면,
데이타를 읽어올때 강제로 cp949로 디코딩 하기 때문에
'릐'같은 글자가 보이게 되는 것 입니다.
원본 파일을 cp932로 디코딩 하면 원래의 일본어가 잘 보일 것 입니다.
파이썬에서는 아래와 같이 하실 수 있습니다.
'\x90\x6c'의 값을
'cp949'로 decode하면 '릐'(U+B990)가 되며,
'cp932'로 decode하면 '人'(U+4EBA)입니다. :)
댓글 달기