cat, grep에서 utf-8로 된 txt 파일 활용

글쓴이: dexion / 작성시간: 금, 2008/10/24 - 2:33오후

os: ubuntu8.04
locale 확인
입력기: SCIM

LANG=ko_KR.utf8
LC_CTYPE="ko_KR.utf8"
LC_NUMERIC="ko_KR.utf8"
LC_TIME="ko_KR.utf8"
LC_COLLATE="ko_KR.utf8"
LC_MONETARY="ko_KR.utf8"
LC_MESSAGES="ko_KR.utf8"
LC_PAPER="ko_KR.utf8"
LC_NAME="ko_KR.utf8"
LC_ADDRESS="ko_KR.utf8"
LC_TELEPHONE="ko_KR.utf8"
LC_MEASUREMENT="ko_KR.utf8"
LC_IDENTIFICATION="ko_KR.utf8"
LC_ALL=ko_KR.utf8

utf-8로 인코딩된 한글 txt파일을 이용하려 합니다. 옛한글을 포함한 문서인데 이 문서의 문자열을 grep을 통해 검색하는 게 목적입니다.

그런데 vi, gedit를 이용해 해당 파일을 열면 옛한글까지 정상적으로 볼 수 있는데, cat, head, tail을 이용하면 글자가 깨져 화면에 출력됩니다. (파일명은 한글이 잘 표현됩니다)

<��60> �� ʣ�� ?��??�� ӹ��?�� ʦ˭��۰��ե�� ?�� ӣ۰�� ܻ��

이런 식으로 출력이 됩니다. 터미널의 인코딩은 UTF-8로 설정되어 있습니다.
그리고 vi이나 geditor를 열었을 때도 ㄹ·ㄹ('를'의 양모음 변이형)이 정확히 표현되지 못하고 네모표로 나오는군요.
오픈오피스(OOo2.4.1)로 열었을 때는 인코딩 선택창이 뜨는데 이때 UTF-8로 선택하여 열었으매도 글자가 깨집니다.

그리고 grep을 이용하여 해당 파일의 문자열을 검색하면 전혀 결과값이 나오지 않습니다.

이 문제를 해결할 수 있을까요?

도움 부탁드립니다.

사용하려는 문서 샘플입니다.
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

世宗御製訓民正音

<훈언1a> 世솅宗御製졩訓훈民민正졍音 [note] 製 글 지 씨니 御製 님금 지샨 그리라 訓은 칠 씨오 民 百姓이오 音은 소리니 訓民正音은 百姓 치시논 正 소리라 [/note]

國귁之징語어音이 [note] 國 나라히라 之 입겨지라 語는 말미라 [/note]

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

또한, 한글 정규식을 사용하기 위한 라이브러리로 개발된 듯한데, 이를 설치하면 grep에서 정규식을 이용하여 한글 패턴을 검색할 수 있게 되는지요?

File attachments:

첨부	파일 크기
1446훈민정음해례.txt.tar.gz	11.48 KB

Forums:

설치 및 활용 QnA

댓글 달기

이름

제목

댓글 *

텍스트 포맷에 대한 자세한 정보

텍스트 양식

Filtered HTML

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
You can use Textile markup to format text.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
Quick Tips:
- Two or more spaces at a line's end = Line break
- Double returns = Paragraph
- *Single asterisks* or _single underscores_ = Emphasis
- **Double** or __double__ = Strong
- This is [a link](http://the.link.example.com "The optional title text")
For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

HTML 태그를 사용할 수 없습니다.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
줄과 단락은 자동으로 분리됩니다.

CAPTCHA

이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.

부 메뉴

cat, grep에서 utf-8로 된 txt 파일 활용

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

둘러보기

부 메뉴

현재 위치

cat, grep에서 utf-8로 된 txt 파일 활용

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

검색 폼

둘러보기

사용자 로그인

Oauth2 Login :