C언어에서 한글 문자열을 문자로 자르기

hgg2468의 이미지

과제로 Extendible hashing 을 구현하고 있습니다.

이름(한글 문자열)을 받아서 그걸 key값으로 해야하는데,

문제는 C언어에서 한글 문자열을 문자로 자르는 방법도 모르고, 설령 문자로 잘랐다고 해도 그걸 유니코드 값으로 변환하는 방법을 모른다는 것입니다..

제 계획은

이름 "홍길동"을 받으면,

홍, 길, 동 각각 유니코드 2바이트짜리 문자로 짜르고,

문자를 16진수 유니코드로 바꾼 뒤,

16진수를 2진수로 바꾸고

각각을 이어붙인 총 48비트의 비트스트링을 key값으로 이용할 생각입니다.

제가 지금까지 한 건

"홍길동"을 char temp1[4] = "홍", char temp2[4] = "길", char temp3[4] = "동" 까지 자르는 것 까지 했습니다.

한 글자 문자열을 문자로 바꾸고 싶어서 wchar_t 등등 다 찾아봤지만 안되더군요..ㅜ

이게 자바로 하면 문자열을 문자로 자르는 함수도 있고, '가' 같은 문자도 숫자로 바로 출력이 가능하더군요.

근데 extendible hashing에 핵심적인 pointer를 이용할 수 없어서...

C언어 한글 문자열을 각각의 문자로, 그 문자를 유니코드로 바꾸는 방법.. 아시는분 계신가요...

세벌의 이미지

https://github.com/choehwanjin/libhangul 보면 도움이 될 것 같습니다.

 의 이미지

wchar_t를 쓰면 됩니다.

char 문자를 wchar_t 문자로 변환할 때는

http://en.cppreference.com/w/c/string/multibyte/mbtowc

그 반대는

http://en.cppreference.com/w/c/string/multibyte/wctomb

레퍼런스 참조하시고요.

제가 예전에 관련 예제코드를 작성해서 kldp에 올렸던 적도 있습니다.

https://kldp.org/node/156803
https://kldp.org/node/156880

이런 걸로 머리 싸매다 보면 그냥 자바로 짜고 싶어지실 겁니다. :)

사실 어떤 방법이든 간에 문자열을 key로 쓰는 것만 중요하다면 그냥 char *를 쓰는 것도 나쁘지 않아요. 저로서는 뭐하러 문자로 자르고 변환하고 할 필요가 있는지 모르겠습니다.

어차피 멀티바이트 문자열도 문자 그대로 바이트열일 뿐이란 말이죠. 그냥 그걸 그대로 쓰면 안 되는 건가요?

hgg2468의 이미지

"홍길동" 자체를 바이트열로 바꿀 수 있단 말씀이신가요? 오... 그게 가능하구나... ㅜ 어떻게 하는지 대충 알려주실 수 있을까요? ㅜ

 의 이미지

C언어에서는 모든 게 본질적으로 바이트열입니다. 항상 주소를 char * 따위로 캐스팅해서 바이트 단위로 접근할 수 있죠. 그게 바로 C언어의 장점이자 단점입니다. 조심해서 써야만 하지요.

하지만 문자열은 그냥 그 자체로 바이트열이므로 바이트열로써 사용하는 데 아무런 문제도 없습니다.

#include <stdio.h>
#include <string.h>
 
int main(void){
	const char *str = "홍길동"; 
	size_t i, len=strlen(str);
	for(i=0;i<len;i++){
		printf("0x%02x ", str[i] & 0xff);
	}
	putchar('\n');
	return 0;
}

https://ideone.com/RiAeJg

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.