php에서 '특정 문자열'만 인코딩 방식이 엉뚱하게 검사됩니다.
글쓴이: wjddndyd401 / 작성시간: 수, 2018/05/09 - 10:23오전
파일에 들어있는 개인정보를 DB에 업로드하는 php 페이지가 있습니다.
업로드되는 파일이 UTF-8일수도 있고 EUC-KR일수도 있어서
인코딩 방식을 검사한 후 그에 맞게 인코딩해서 DB에 업로드합니다.
검사에는 iconv와 mb_detect_encoding 함수를 이용했습니다.
헌데 두 방식을 다 사용해봤는데
파일 내용이 EUC-KR일 때
정말 특정 문자열에 한해서만 UTF-8로 알아먹습니다. 당연히 인코딩이 제대로 되지 않구요.
임시로 페이지를 만들어서 iconv를 이용해서 강제로 EUC-KR로 인코딩을 해봤는데
분명히 EUC-KR로 인코딩한 결과물을 검사해봤는데도 결과가 UTF-8로 나옵니다.
그 특정 문자열이 한두개는 아닌 것 같고, 지금 확인되는 예시는 '황치호'라는 이름이 있습니다.
아무리 EUC-KR로 인코딩한 다음 검사해도 UTF-8로 결과가 나옵니다.
혹시 이 문제를 경험해보신 분이 있는지,
해결법이나 우회법이 있는지 궁금합니다.
Forums:
너무 샘플 길이가 작아서 생기는 문제 같습니다. 다른
너무 샘플 길이가 작아서 생기는 문제 같습니다. 다른 검출기를 사용하시는 것이 좋을 것 같은데요?
http://my.oops.org/126
이 글이 참고가 되시려나...
---
http://coolengineer.com
EUC-KR로 '황치호'라는 값이 저장되어 있으면,
EUC-KR로 '황치호'라는 값이 저장되어 있으면,
c8 b2 c4 a1 c8 a3
라는 값을 가지게 되고, 이를 UTF-8로 읽을 경우 'Ȳġȣ'라는 올바른(!) UTF-8 문자열이 됩니다.
만약 입력의 내용이 다국어가 아닌 한글, 영문, 숫자 등에 국한된다면, mb_detect_encoding()이 UTF-8로 판별하더라도, 정규식으로 의도하지 않은 문자가 포함되어있는지 한번 더 체크해보면 될 듯 합니다.
해결했습니다
말씀대로 입력값은 한글, 영문자, 숫자 뿐이라 올려주신 코드로 해결했습니다. 정규식 공부 좀 해야겠네요.
그 와중에 iconv 파라미터를 죄다 소문자로 넣어 놔서 한바탕 헤맨 것은 덤....
댓글 달기