C 에서 한글 처리

매그넘의 이미지


새내기..직장인인데.. 그동안 너무나 궁금했던 점이 있었는데.. 조언좀 부탁드리겠습니다.

int main(void)
char str[] = "안녕하세요";
printf("%c\n",str[0]); //이상한 값 출력
printf("%d\n", str[0]); // -66 출력


char 배열에 한글을 넣었을때.. 문자열을 통째로 출력 (%s 지시자) 하면.. 아주 정상적으로 출력이 잘되는데.

배열의 한개의 요소 (char) 를 출력할려고 하면.. 이상한값이 나오고...

문자라는 실상은 code 로 이루어져 있어서 %d 로 숫자로 출력을 하면 -66 이란 값이 나오는데...( 'a' 를 출력하면 ascii code 97 이 나오는것처럼..생각을 했습니다~)

char 배열에서 한글이 어떤식으로 처리가 되고. 돌아가는지..

그리고 문자열 "안녕하세요" 가 있을때 "안" 만 출력을 하려면 어찌 해야하는지..

조언 좀 부탁드리겠습니다.

혹시나.. 이미 많이 올라온 내용일경우라면..(검색을 해봤는데..만족할 만한 내용은 못찾았습니다.. ㅡㅡ;) 검색어 를 추천해주세요!!!

sonchac의 이미지

%c%c 하시고 str[0], str[1] 해서 이어서 출력하시면 될 듯하네요.

예를 들면
printf("%c%c", str[0], str[1]);
이렇게요. ^^

keedi의 이미지

utf8 환경이시라면 3바이트 출력을...

Smashing Watermelons~!!
Whatever Nevermind~!!

use perl;

Keedi Kim

죠커의 이미지

대부분의 환경에서 char는 옥텟(8비트)이고 char의 배열의 한 요소 역시 옥텟입니다. 한글은 옥텟으로 표현이 불가능합니다.

- CN의 낙서장 / HanIRC:#CN

esrevinu의 이미지

wchar_t type에 대한 이야기나 인코딩에 대한 이야기가 나오네요. multibyte 문자에 대해서는 wchar_t type을 써야 되지 않을까요?


Under GNU/Linux, the C type wchar_t is a signed 32-bit integer type.
Its values are always interpreted by the C library as UCS code values
(in all locales), a convention that is signaled by the GNU C library to
applications by defining the constant __STDC_ISO_10646__ as specified
in the ISO C 99 standard.

UCS/Unicode can be used just like ASCII in input/output streams, termi?
nal communication, plaintext files, filenames, and environment vari?
ables in the ASCII compatible UTF-8 multi-byte encoding. To signal the
use of UTF-8 as the character encoding to all applications, a suitable
locale has to be selected via environment variables (e.g.,

The nl_langinfo(CODESET) function returns the name of the selected
encoding. Library functions such as wctomb(3) and mbsrtowcs(3) can be
used to transform the internal wchar_t characters and strings into the
system character encoding and back and wcwidth(3) tells, how many posi?
tions (0?2) the cursor is advanced by the output of a character.

Under Linux, in general only the BMP at implementation level 1 should
be used at the moment. Up to two combining characters per base charac?
ter for certain scripts (in particular Thai) are also supported by some
UTF-8 terminal emulators and ISO 10646 fonts (level 2), but in general
precomposed characters should be preferred where available (Unicode
calls this Normalization Form C).

foldl (flip (:)) [] "universe"
막코더의 이미지

저도 정말 궁금한게 있는데여..
ascii니 utf니 하는 코드들은 어느 시점에서 적용 되는거죠??
코드들을 어디서 관리를 하고 있다고..프로그램 실행시 어느 시점에서 코드가 적용 되는지 좀 갈켜 주세염..;;;;

pok의 이미지

아마 소스의 인코딩에 따라 소스에 쓰여진 문자열이라든지 문자열상수등이 결정되는것으로 보입니다. 소스 인코딩을 euc-kr로 해서 컴파일을 하면 소스내에서 입력한 문자값들은 euc-kr로 인코딩 되어 있을것이고, 그 인코딩을 읽을수 있는 환경에서만 읽을수 있겠죠...

poklog at http://poksion.cafe24.com/poklog/

