cat, grep에서 utf-8로 된 txt 파일 활용

dexion의 이미지

os: ubuntu8.04
locale 확인
입력기: SCIM

LANG=ko_KR.utf8
LC_CTYPE="ko_KR.utf8"
LC_NUMERIC="ko_KR.utf8"
LC_TIME="ko_KR.utf8"
LC_COLLATE="ko_KR.utf8"
LC_MONETARY="ko_KR.utf8"
LC_MESSAGES="ko_KR.utf8"
LC_PAPER="ko_KR.utf8"
LC_NAME="ko_KR.utf8"
LC_ADDRESS="ko_KR.utf8"
LC_TELEPHONE="ko_KR.utf8"
LC_MEASUREMENT="ko_KR.utf8"
LC_IDENTIFICATION="ko_KR.utf8"
LC_ALL=ko_KR.utf8

utf-8로 인코딩된 한글 txt파일을 이용하려 합니다. 옛한글을 포함한 문서인데 이 문서의 문자열을 grep을 통해 검색하는 게 목적입니다.

그런데 vi, gedit를 이용해 해당 파일을 열면 옛한글까지 정상적으로 볼 수 있는데, cat, head, tail을 이용하면 글자가 깨져 화면에 출력됩니다. (파일명은 한글이 잘 표현됩니다)

<����60> ���� �������������� ʣ���������������� ����?����??�� ����ӹ����?�� ���������������� ��ʦ˭������������۰��ե���� ?������ ӣ۰������ �������� ������������ �������� ������ܻ������������ ���������� �����

이런 식으로 출력이 됩니다. 터미널의 인코딩은 UTF-8로 설정되어 있습니다.
그리고 vi이나 geditor를 열었을 때도 ㄹ·ㄹ('를'의 양모음 변이형)이 정확히 표현되지 못하고 네모표로 나오는군요.
오픈오피스(OOo2.4.1)로 열었을 때는 인코딩 선택창이 뜨는데 이때 UTF-8로 선택하여 열었으매도 글자가 깨집니다.

그리고 grep을 이용하여 해당 파일의 문자열을 검색하면 전혀 결과값이 나오지 않습니다.

이 문제를 해결할 수 있을까요?

도움 부탁드립니다.

사용하려는 문서 샘플입니다.
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

世宗御製訓民正音

<훈언1a> 世솅宗御製졩訓훈民민正졍音 [note] 製 글 지 씨니 御製 님금 지샨 그리라 訓은 칠 씨오 民 百姓이오 音은 소리니 訓民正音은 百姓 치시논 正 소리라 [/note]

國귁之징語어音이 [note] 國 나라히라 之 입겨지라 語는 말미라 [/note]

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

또한, 한글 정규식을 사용하기 위한 라이브러리로 개발된 듯한데, 이를 설치하면 grep에서 정규식을 이용하여 한글 패턴을 검색할 수 있게 되는지요?

File attachments: 
첨부파일 크기
Binary Data 1446훈민정음해례.txt.tar.gz11.48 KB

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.