한글의 leading byte인지를 알아내는 법

hekimian의 이미지

2byte인 한글에서 leading byte(첫번째 byte)인지를 구분하는 법을 알고 싶습니다.

여기 저기 찾아 보구 테스트 했는데.. 정확하지 않은 듯 하여 이곳에 질문 해 봅니다.

여러 고수님들의 답변 기대하겠습니다.

dhjung의 이미지

질문을 올리시기 전에 한번정도 검색을 해보시길... :(

http://bbs.kldp.org/viewtopic.php?t=30513


--------------------------
Donghyun Jung

hekimian의 이미지

알려주신 링크의 예제는 이미 테스트를 해보았습니다.
테스트 결과 원하는 결과를 얻지 못하여 다시 질문을 한 것입니다.

그럼 좋은 답변 부탁드립니다.

나를 죽이지 않는 모든 것은 나를 강하게 할 뿐이다.

kuma의 이미지

한글 첫바이트의 MSB bit 가 1 이 아닌가요? 이걸로 판단하면 되지 않을까요?

marten의 이미지

어느 플랫폼에서 테스트 중인지는 모르겠지만...

만약 2byte로 표현된 한글이 <euckr(완성형)> 인코딩이라면..
다음과 같이 판별할 수 있습니다.

첫번째 바이트가 0xA1 ~ 0xFE 사이의 값이고...
두번째 바이트도 0xA1 ~ 0xFE 사이의 값이라면..
한글입니다.

또 만약 2byte로 표현된 한글이 <조합형> 인코딩이라면..
다음과 같이 판별할 수 있습니다.

첫번째 바이트가 0x84 ~ 0xD3 사이의 값이고...
두번째 바이트가 0x41 ~ 0x7E, 0x81 ~ 0xFE 사이의 값이라면..
한글입니다.

아참..그리고...
만약 <Unicode>라면...
첫번째 바이트가 0xAC ~ 0xD7 사이의 값이고...
두번째 바이트가 0x00 ~ 0xFF 사이의 값이라면...
한글입니다..(BigEndian 일때)

참고하시길 바랍니다.

hekimian의 이미지

우선 답변 달아주신 여러분께 감사드립니다.

테스트 플랫폼은 solaris8입니다. (euc-kr)

질문의 요지는 해당 byte가 한글인지 아닌지가 아니라

2byte의 한글중에서 leading byte인지 tail byte인지를 판별하는 법을 알고 싶은 겁니다.

그럼 .... 부탁드립니다.

나를 죽이지 않는 모든 것은 나를 강하게 할 뿐이다.

marten의 이미지

hekimian wrote:
2byte의 한글중에서 leading byte인지 tail byte인지를 판별하는 법을 알고 싶은 겁니다.

문자열과 문자열 내의 특정 위치가 주어졌을 때,
그 위치의 바이트가 leadbyte 인지 아닌지를 알아내려면..
그 문자열의 처음부터 하나씩 한글을 체크해야 합니다.

인접 바이트의 값만으로 판단할 수 있는 방법은 없을 것입니다.
특히 완성형이라면 말이죠.

문자열이 깨져있지 않다는 가정하에...
문자열의 처음부터 한글과 한글 아닌 것을 구분해가는 수 밖에 없습니다.

hekimian의 이미지

marten님 말씀이 맞는듯 합니다.

질문 올려논 후 여기저기 자료는 찾고 테스트도 해보구 있는 중인데..

marten님이 말씀 하신 대로 앞에서 부터 검사해 나가는 방법 말구는 다른 방법이 없는 듯하네요...

나를 죽이지 않는 모든 것은 나를 강하게 할 뿐이다.

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.