한글인코딩문제

obbaya의 이미지

xp에서 euc-kr파일을 utf-8을 쓰는 리눅스로 옮겨왔습니다.
인코딩변환을 하지 않은 채 이클립스에서 euc-kr파일을 오픈해서
다시 저장을 했습니다.
euc-kr에 포함되어 있던 한글들이 깨진 채로 utf-8로 저장되버렸습니다.
깨진 한글을 담고 있는 이 utf-8파일의 한글 부분을 되살릴 수 있는 방법이 있을까요?
코드셋이 꼬여버려서 안될거 같긴한데 혹여나 방법이 있고 알고 계신분
있으시면 조언 부탁드릴께요

터미널의 인코딩을 utf-8, euc-kr등으로 바꾸어봐도 일단 깨진 채 utf-8로 저장되버린
한글은 볼 수 가 없네요 euc-kr 코드셋을 그대로 utf-8 코드셋으로 박아 버렸으니
당연한 결과라 생각되지만... 도저히 방법이 없을까요...

lacovnk의 이미지

iconv -feuc-kr -tutf8 로 하면 안되나요?
텍스트 파일이라면 meta 정보는 없을 테고.. 그냥 억지로 euckr로 인식시키면 될 것 같은데.. 패스 ㅎㅎ

wish의 이미지

지금 상황이 제가 이해 하기로는 다음과 같습니다.

1) euc-kr로 인코딩된 한글 텍스트를
2) eclipse에서 utf-8 형식으로 부른 후
3) eclipse에서 utf-8 형식으로 저장했다

만약 그렇다면 대부분의 텍스트는 복구 "불가능 합니다" 정말 작은 부분만 가능 할 듯 싶습니다. 근데 그냥 불가능하다고 생각해도 될 정도로 작은 부분입니다. 이유는 다음과 같습니다.

euc-kr(확장 완성형이 아닌 경우)은 한글 부분(정확히는 ascii가 아닌 부분)의 인코딩이 대략 2진법으로 써보면 1xxxxxxx 1xxxxxxx 입니다. 2바이트가 한 글자죠. utf-8은 ascii가 아니면 110, 1110 11110 으로 한 글자가 시작해야 하고 그 뒤에 각각 1바이트 2바이트 3바이트 씩 10으로 시작하는 바이트가 뒤따라야 합니다. 운이 좋게 euc-kr 스트링이 그 규칙에 맞게 되어 있다면 (예를 들어 '웹'같은 글자. 그것도 글자가 합성 중인 상태라면 안 됩니다) 정보가 보존되겠지만, 그렇지 않다면 이클립스는 모르는 글자로 판단해서 U+FFFD(알려지지 않은 입력 값)으로 저장해버립니다. 즉 있던 정보가 사라집니다. 따라서 대부분의 시퀀스는 복원이 불가능 하죠 ㅜㅜ

obbaya의 이미지

그렇군요 iconv로 이리저리 바꿔보니 간혹 복구되는 한글 부분이 있던데
그게 "운이 좋게 euc-kr 규칙에 맞아떨어진" 부분이었나보네요......

아 복구할 방법은 없는 거네요.
위에 두분 답변 감사합니다.

복구불가로 결정내리고 차선책을 알아봐야겠네요.
행복한 하루들 되세요.

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.