C언어에서 한글 문자열을 문자로 자르기
글쓴이: hgg2468 / 작성시간: 목, 2017/06/01 - 3:58오후
과제로 Extendible hashing 을 구현하고 있습니다.
이름(한글 문자열)을 받아서 그걸 key값으로 해야하는데,
문제는 C언어에서 한글 문자열을 문자로 자르는 방법도 모르고, 설령 문자로 잘랐다고 해도 그걸 유니코드 값으로 변환하는 방법을 모른다는 것입니다..
제 계획은
이름 "홍길동"을 받으면,
홍, 길, 동 각각 유니코드 2바이트짜리 문자로 짜르고,
문자를 16진수 유니코드로 바꾼 뒤,
16진수를 2진수로 바꾸고
각각을 이어붙인 총 48비트의 비트스트링을 key값으로 이용할 생각입니다.
제가 지금까지 한 건
"홍길동"을 char temp1[4] = "홍", char temp2[4] = "길", char temp3[4] = "동" 까지 자르는 것 까지 했습니다.
한 글자 문자열을 문자로 바꾸고 싶어서 wchar_t 등등 다 찾아봤지만 안되더군요..ㅜ
이게 자바로 하면 문자열을 문자로 자르는 함수도 있고, '가' 같은 문자도 숫자로 바로 출력이 가능하더군요.
근데 extendible hashing에 핵심적인 pointer를 이용할 수 없어서...
C언어 한글 문자열을 각각의 문자로, 그 문자를 유니코드로 바꾸는 방법.. 아시는분 계신가요...
Forums:
https://github.com
https://github.com/choehwanjin/libhangul 보면 도움이 될 것 같습니다.
세벌 https://sebuls.blogspot.kr/
wchar_t를 쓰면 됩니다.
wchar_t
를 쓰면 됩니다.char
문자를wchar_t
문자로 변환할 때는http://en.cppreference.com/w/c/string/multibyte/mbtowc
그 반대는
http://en.cppreference.com/w/c/string/multibyte/wctomb
레퍼런스 참조하시고요.
제가 예전에 관련 예제코드를 작성해서 kldp에 올렸던 적도 있습니다.
https://kldp.org/node/156803
https://kldp.org/node/156880
이런 걸로 머리 싸매다 보면 그냥 자바로 짜고 싶어지실 겁니다. :)
사실 어떤 방법이든 간에 문자열을 key로 쓰는 것만 중요하다면 그냥
char *
를 쓰는 것도 나쁘지 않아요. 저로서는 뭐하러 문자로 자르고 변환하고 할 필요가 있는지 모르겠습니다.어차피 멀티바이트 문자열도 문자 그대로 바이트열일 뿐이란 말이죠. 그냥 그걸 그대로 쓰면 안 되는 건가요?
오 그럼
"홍길동" 자체를 바이트열로 바꿀 수 있단 말씀이신가요? 오... 그게 가능하구나... ㅜ 어떻게 하는지 대충 알려주실 수 있을까요? ㅜ
C언어에서는 모든 게 바이트열입니다. 항상 주소를
C언어에서는 모든 게 본질적으로 바이트열입니다. 항상 주소를
char *
따위로 캐스팅해서 바이트 단위로 접근할 수 있죠. 그게 바로 C언어의 장점이자 단점입니다. 조심해서 써야만 하지요.하지만 문자열은 그냥 그 자체로 바이트열이므로 바이트열로써 사용하는 데 아무런 문제도 없습니다.
https://ideone.com/RiAeJg
댓글 달기