cat, grep에서 utf-8로 된 txt 파일 활용
os: ubuntu8.04
locale 확인
입력기: SCIM
LANG=ko_KR.utf8
LC_CTYPE="ko_KR.utf8"
LC_NUMERIC="ko_KR.utf8"
LC_TIME="ko_KR.utf8"
LC_COLLATE="ko_KR.utf8"
LC_MONETARY="ko_KR.utf8"
LC_MESSAGES="ko_KR.utf8"
LC_PAPER="ko_KR.utf8"
LC_NAME="ko_KR.utf8"
LC_ADDRESS="ko_KR.utf8"
LC_TELEPHONE="ko_KR.utf8"
LC_MEASUREMENT="ko_KR.utf8"
LC_IDENTIFICATION="ko_KR.utf8"
LC_ALL=ko_KR.utf8
utf-8로 인코딩된 한글 txt파일을 이용하려 합니다. 옛한글을 포함한 문서인데 이 문서의 문자열을 grep을 통해 검색하는 게 목적입니다.
그런데 vi, gedit를 이용해 해당 파일을 열면 옛한글까지 정상적으로 볼 수 있는데, cat, head, tail을 이용하면 글자가 깨져 화면에 출력됩니다. (파일명은 한글이 잘 표현됩니다)
<����60> ���� �������������� ʣ���������������� ����?����??�� ����ӹ����?�� ���������������� ��ʦ˭������������۰��ե���� ?������ ӣ۰������ �������� ������������ �������� ������ܻ������������ ���������� �����
이런 식으로 출력이 됩니다. 터미널의 인코딩은 UTF-8로 설정되어 있습니다.
그리고 vi이나 geditor를 열었을 때도 ㄹ·ㄹ('를'의 양모음 변이형)이 정확히 표현되지 못하고 네모표로 나오는군요.
오픈오피스(OOo2.4.1)로 열었을 때는 인코딩 선택창이 뜨는데 이때 UTF-8로 선택하여 열었으매도 글자가 깨집니다.
그리고 grep을 이용하여 해당 파일의 문자열을 검색하면 전혀 결과값이 나오지 않습니다.
이 문제를 해결할 수 있을까요?
도움 부탁드립니다.
사용하려는 문서 샘플입니다.
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
<훈언1a> 世솅宗御製졩訓훈民민正졍音 [note] 製 글 지 씨니 御製 님금 지샨 그리라 訓은 칠 씨오 民 百姓이오 音은 소리니 訓民正音은 百姓 치시논 正 소리라 [/note]
國귁之징語어音이 [note] 國 나라히라 之 입겨지라 語는 말미라 [/note]
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
또한, 한글 정규식을 사용하기 위한 라이브러리로 개발된 듯한데, 이를 설치하면 grep에서 정규식을 이용하여 한글 패턴을 검색할 수 있게 되는지요?
| 첨부 | 파일 크기 |
|---|---|
| 11.48 KB |


댓글 달기