2byte인 한글에서 leading byte(첫번째 byte)인지를 구분하는 법을 알고 싶습니다.
여기 저기 찾아 보구 테스트 했는데.. 정확하지 않은 듯 하여 이곳에 질문 해 봅니다.
여러 고수님들의 답변 기대하겠습니다.
질문을 올리시기 전에 한번정도 검색을 해보시길... :(
http://bbs.kldp.org/viewtopic.php?t=30513
-------------------------- Donghyun Jung
알려주신 링크의 예제는 이미 테스트를 해보았습니다. 테스트 결과 원하는 결과를 얻지 못하여 다시 질문을 한 것입니다.
그럼 좋은 답변 부탁드립니다.
나를 죽이지 않는 모든 것은 나를 강하게 할 뿐이다.
한글 첫바이트의 MSB bit 가 1 이 아닌가요? 이걸로 판단하면 되지 않을까요?
어느 플랫폼에서 테스트 중인지는 모르겠지만...
만약 2byte로 표현된 한글이 <euckr(완성형)> 인코딩이라면.. 다음과 같이 판별할 수 있습니다.
첫번째 바이트가 0xA1 ~ 0xFE 사이의 값이고... 두번째 바이트도 0xA1 ~ 0xFE 사이의 값이라면.. 한글입니다.
또 만약 2byte로 표현된 한글이 <조합형> 인코딩이라면.. 다음과 같이 판별할 수 있습니다.
첫번째 바이트가 0x84 ~ 0xD3 사이의 값이고... 두번째 바이트가 0x41 ~ 0x7E, 0x81 ~ 0xFE 사이의 값이라면.. 한글입니다.
아참..그리고... 만약 <Unicode>라면... 첫번째 바이트가 0xAC ~ 0xD7 사이의 값이고... 두번째 바이트가 0x00 ~ 0xFF 사이의 값이라면... 한글입니다..(BigEndian 일때)
참고하시길 바랍니다.
우선 답변 달아주신 여러분께 감사드립니다.
테스트 플랫폼은 solaris8입니다. (euc-kr)
질문의 요지는 해당 byte가 한글인지 아닌지가 아니라
2byte의 한글중에서 leading byte인지 tail byte인지를 판별하는 법을 알고 싶은 겁니다.
그럼 .... 부탁드립니다.
문자열과 문자열 내의 특정 위치가 주어졌을 때, 그 위치의 바이트가 leadbyte 인지 아닌지를 알아내려면.. 그 문자열의 처음부터 하나씩 한글을 체크해야 합니다.
인접 바이트의 값만으로 판단할 수 있는 방법은 없을 것입니다. 특히 완성형이라면 말이죠.
문자열이 깨져있지 않다는 가정하에... 문자열의 처음부터 한글과 한글 아닌 것을 구분해가는 수 밖에 없습니다.
marten님 말씀이 맞는듯 합니다.
질문 올려논 후 여기저기 자료는 찾고 테스트도 해보구 있는 중인데..
marten님이 말씀 하신 대로 앞에서 부터 검사해 나가는 방법 말구는 다른 방법이 없는 듯하네요...
텍스트 포맷에 대한 자세한 정보
<code>
<blockcode>
<apache>
<applescript>
<autoconf>
<awk>
<bash>
<c>
<cpp>
<css>
<diff>
<drupal5>
<drupal6>
<gdb>
<html>
<html5>
<java>
<javascript>
<ldif>
<lua>
<make>
<mysql>
<perl>
<perl6>
<php>
<pgsql>
<proftpd>
<python>
<reg>
<spec>
<ruby>
<foo>
[foo]
질문을 올리시기 전에 한번정도 검색을 해보시길... :( htt
질문을 올리시기 전에 한번정도 검색을 해보시길... :(
http://bbs.kldp.org/viewtopic.php?t=30513
--------------------------
Donghyun Jung
알려주신 링크는...
알려주신 링크의 예제는 이미 테스트를 해보았습니다.
테스트 결과 원하는 결과를 얻지 못하여 다시 질문을 한 것입니다.
그럼 좋은 답변 부탁드립니다.
나를 죽이지 않는 모든 것은 나를 강하게 할 뿐이다.
MSB 가 1 이 아닌가요?
한글 첫바이트의 MSB bit 가 1 이 아닌가요? 이걸로 판단하면 되지 않을까요?
어느 플랫폼에서 테스트 중인지는 모르겠지만...만약 2byte로
어느 플랫폼에서 테스트 중인지는 모르겠지만...
만약 2byte로 표현된 한글이 <euckr(완성형)> 인코딩이라면..
다음과 같이 판별할 수 있습니다.
첫번째 바이트가 0xA1 ~ 0xFE 사이의 값이고...
두번째 바이트도 0xA1 ~ 0xFE 사이의 값이라면..
한글입니다.
또 만약 2byte로 표현된 한글이 <조합형> 인코딩이라면..
다음과 같이 판별할 수 있습니다.
첫번째 바이트가 0x84 ~ 0xD3 사이의 값이고...
두번째 바이트가 0x41 ~ 0x7E, 0x81 ~ 0xFE 사이의 값이라면..
한글입니다.
아참..그리고...
만약 <Unicode>라면...
첫번째 바이트가 0xAC ~ 0xD7 사이의 값이고...
두번째 바이트가 0x00 ~ 0xFF 사이의 값이라면...
한글입니다..(BigEndian 일때)
참고하시길 바랍니다.
한글인지 아닌지를 알아내는 방법이 아니라 leading byte인지를
우선 답변 달아주신 여러분께 감사드립니다.
테스트 플랫폼은 solaris8입니다. (euc-kr)
질문의 요지는 해당 byte가 한글인지 아닌지가 아니라
2byte의 한글중에서 leading byte인지 tail byte인지를 판별하는 법을 알고 싶은 겁니다.
그럼 .... 부탁드립니다.
나를 죽이지 않는 모든 것은 나를 강하게 할 뿐이다.
Re: 한글인지 아닌지를 알아내는 방법이 아니라 leading byte인
문자열과 문자열 내의 특정 위치가 주어졌을 때,
그 위치의 바이트가 leadbyte 인지 아닌지를 알아내려면..
그 문자열의 처음부터 하나씩 한글을 체크해야 합니다.
인접 바이트의 값만으로 판단할 수 있는 방법은 없을 것입니다.
특히 완성형이라면 말이죠.
문자열이 깨져있지 않다는 가정하에...
문자열의 처음부터 한글과 한글 아닌 것을 구분해가는 수 밖에 없습니다.
아무래도 그런거 같네요...
marten님 말씀이 맞는듯 합니다.
질문 올려논 후 여기저기 자료는 찾고 테스트도 해보구 있는 중인데..
marten님이 말씀 하신 대로 앞에서 부터 검사해 나가는 방법 말구는 다른 방법이 없는 듯하네요...
나를 죽이지 않는 모든 것은 나를 강하게 할 뿐이다.
댓글 달기