인코딩에서 멀티바이트와 UTF 인코딩에 대해 궁금한 점이 몇 가지 있습니다.

mywin의 이미지

지금 예전에 만들었던 프로그램에 버그가 있어서 다시 프로그램을 수정하고 있습니다. 문자 인코딩과 관련이 있어 몇 가지 질문을 올려봅니다.

질문 1.
시스템 로케일이 UTF-8인 환경에서 UTF-16을 멀티바이트로 얻어올 수 있을까요? 즉 char 타입으로 말입니다. 파일을 UTF-16으로 저장하고 fopen으로 열어서 fread로 한 번에 char* buffer 로 그 파일의 내용을 모드 읽어들였습니다. 그리고

cout<<buffer<<endl; 

이라고 하니 한글 제대로 출력이 안됩니다. 그래서 mbstowcs 함수로 변환해서 출력도 해봤는데 마찬가지입니다. 어떻게 해야 UTF-8 로케일에서 UTF-16 문서를 제대로 읽어 출력할 수 있는지 궁금합니다.

질문 2.
로케일이 UTF-8인 환경에서 C++ 소스 문서가 UTF-16으로 저장된 상태에서 컴파일하면 오류가 뜹니다. 소스문서의 코드와 로케일은 같아야만 하나요?

질문 3.
시스템 로케일이 UTF-8인 환경에서 C++ 소스 파일을 만들었는데, 그 소스 안에서 mbstowcs를 사용했습니다. 나중에 로케일이 utf-16 등 다른 유니코드로 변경되더라도 오작동할 일은 없을지 궁금합니다.

질문 4.

kukyakya의 이미지

mbs 는 현재 로케일 내에서 multibyte char <-> wchar 간의 변환을 하는 것으로, UTF-8, UTF-16과 상관이 없습니다.

인코딩을 변환하고 싶으신거면 iconv등의 라이브러리를 이용하셔야 합니다.

mywin의 이미지

UTF-8 문서를 열어서 fread로 buffer로 한 번에 저장한 뒤에 buffer의 길이는 한글은 3바아트, 영어는 1바이트씩 해서 측정이 됩니다. 그리고 이 buffer의 내용을 mbstowcs의 두 번째 매개변수로 전달하면 wstr로 제대로 변환이 되고 출력도 됩니다. UTF-8 로케일에서 말입니다. 지극히 당연하죠. 그런데 그것을 말씀드리려는 것이 아니고 두 번째 매개변수로 전달되는 것이 multibyte열이라고 하는군요. 아래 참고링크 걸어둡니다.

http://www.cplusplus.com/reference/cstdlib/mbstowcs/?kw=mbstowcs

멀티아비트가 꼭 UTF8을 말하는 것은 아닌 것 같은데요. utf8 문서의 내용이 buffer로 입력됐고 그것이 mbstowcs의 두 번째 매개변수로 들어갔으니 이것도 일종의 멀티바이트라 볼 수 있지 않을까요? 도대체 이 모순되는 내용을 어떻게 정리해야 되는거죠?
그리고 답변주신 iconv라이브러리는

yum install iconv

라고 하면 설치가 되는지요? 그리고 소스에서 인크루드는

include "iconv.h"

이렇게 하는 것인가요? 이 라이브러리 설치 및 사용법이 궁금합니다.

그리고 저 iconv라는 것으로 문서의 인코딩을 시스템이 사용하는 인코딩으로 변환해서 파일 내용을 읽어올 수 있는 것인가요?

안개 걷히고 구름 걷히면 빛이 내려 않는다.

kukyakya의 이미지

UTF-8, UTF-16 ∈ multibyte 입니다. multibyte스트링의 인코딩이 현재 로켈에 의해 정해지는것이구요.

utf-16을 fread로 읽으면 buffer에는 utf-16으로 인코딩된 문자열이 들어가 있을 것이고, 이를 cout으로 출력하면 당연히 출력이 되지 않죠.

utf-8 로켈 환경에서 utf-16 파일의 데이터를 출력하려면, utf-16 스트링을 utf-8로 인코딩 변환 후 출력해야합니다. iconv가 해주는 것이 이 작업입니다.

glibc에 iconv가 구현되어있으니 별도 설치 없이 그냥 사용하시면 됩니다.

mywin의 이미지

...

안개 걷히고 구름 걷히면 빛이 내려 않는다.

mywin의 이미지

로케일이 EUC-KR이라고 했을 때 읽어들인 스트링도 MBCS라 할 수 있을까요. MBCS의 범주에 드는 인코딩은 어떤 것들인가요?

안개 걷히고 구름 걷히면 빛이 내려 않는다.

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.