인코딩에서 멀티바이트와 UTF 인코딩에 대해 궁금한 점이 몇 가지 있습니다.
글쓴이: mywin / 작성시간: 수, 2014/12/24 - 11:50오후
지금 예전에 만들었던 프로그램에 버그가 있어서 다시 프로그램을 수정하고 있습니다. 문자 인코딩과 관련이 있어 몇 가지 질문을 올려봅니다.
질문 1.
시스템 로케일이 UTF-8인 환경에서 UTF-16을 멀티바이트로 얻어올 수 있을까요? 즉 char 타입으로 말입니다. 파일을 UTF-16으로 저장하고 fopen으로 열어서 fread로 한 번에 char* buffer 로 그 파일의 내용을 모드 읽어들였습니다. 그리고
cout<<buffer<<endl;
이라고 하니 한글 제대로 출력이 안됩니다. 그래서 mbstowcs 함수로 변환해서 출력도 해봤는데 마찬가지입니다. 어떻게 해야 UTF-8 로케일에서 UTF-16 문서를 제대로 읽어 출력할 수 있는지 궁금합니다.
질문 2.
로케일이 UTF-8인 환경에서 C++ 소스 문서가 UTF-16으로 저장된 상태에서 컴파일하면 오류가 뜹니다. 소스문서의 코드와 로케일은 같아야만 하나요?
질문 3.
시스템 로케일이 UTF-8인 환경에서 C++ 소스 파일을 만들었는데, 그 소스 안에서 mbstowcs를 사용했습니다. 나중에 로케일이 utf-16 등 다른 유니코드로 변경되더라도 오작동할 일은 없을지 궁금합니다.
질문 4.
Forums:
mbs 는 현재 로케일 내에서 multibyte
mbs 는 현재 로케일 내에서 multibyte char <-> wchar 간의 변환을 하는 것으로, UTF-8, UTF-16과 상관이 없습니다.
인코딩을 변환하고 싶으신거면 iconv등의 라이브러리를 이용하셔야 합니다.
MBCS라는 것을 담는 타입은 char인가요?
UTF-8 문서를 열어서 fread로 buffer로 한 번에 저장한 뒤에 buffer의 길이는 한글은 3바아트, 영어는 1바이트씩 해서 측정이 됩니다. 그리고 이 buffer의 내용을 mbstowcs의 두 번째 매개변수로 전달하면 wstr로 제대로 변환이 되고 출력도 됩니다. UTF-8 로케일에서 말입니다. 지극히 당연하죠. 그런데 그것을 말씀드리려는 것이 아니고 두 번째 매개변수로 전달되는 것이 multibyte열이라고 하는군요. 아래 참고링크 걸어둡니다.
http://www.cplusplus.com/reference/cstdlib/mbstowcs/?kw=mbstowcs
멀티아비트가 꼭 UTF8을 말하는 것은 아닌 것 같은데요. utf8 문서의 내용이 buffer로 입력됐고 그것이 mbstowcs의 두 번째 매개변수로 들어갔으니 이것도 일종의 멀티바이트라 볼 수 있지 않을까요? 도대체 이 모순되는 내용을 어떻게 정리해야 되는거죠?
그리고 답변주신 iconv라이브러리는
yum install iconv
라고 하면 설치가 되는지요? 그리고 소스에서 인크루드는
include "iconv.h"
이렇게 하는 것인가요? 이 라이브러리 설치 및 사용법이 궁금합니다.
그리고 저 iconv라는 것으로 문서의 인코딩을 시스템이 사용하는 인코딩으로 변환해서 파일 내용을 읽어올 수 있는 것인가요?
안개 걷히고 구름 걷히면 빛이 내려 않는다.
UTF-8, UTF-16 ∈ multibyte
UTF-8, UTF-16 ∈ multibyte 입니다. multibyte스트링의 인코딩이 현재 로켈에 의해 정해지는것이구요.
utf-16을 fread로 읽으면 buffer에는 utf-16으로 인코딩된 문자열이 들어가 있을 것이고, 이를 cout으로 출력하면 당연히 출력이 되지 않죠.
utf-8 로켈 환경에서 utf-16 파일의 데이터를 출력하려면, utf-16 스트링을 utf-8로 인코딩 변환 후 출력해야합니다. iconv가 해주는 것이 이 작업입니다.
glibc에 iconv가 구현되어있으니 별도 설치 없이 그냥 사용하시면 됩니다.
...
...
안개 걷히고 구름 걷히면 빛이 내려 않는다.
한 가지 질문만 더 드려도 될까요?
로케일이 EUC-KR이라고 했을 때 읽어들인 스트링도 MBCS라 할 수 있을까요. MBCS의 범주에 드는 인코딩은 어떤 것들인가요?
안개 걷히고 구름 걷히면 빛이 내려 않는다.
댓글 달기