텍스트 파일과 바이너리 파일 분류

macros의 이미지

스시템 상의 파일들을 메모리에 읽어온 후

이 파일이 텍스트인지 바이너리인지 확인을 해야합니다.

몇몇 바이너리 파일들은 헤더의 매직키를 가지고있어서

어떤 종류의 파일임을 알수가 있지만,

지금의 경우엔 단순히 텍스트와 바이너리 2가지 기준으로 분류하는거죠.

단순하게 알고리즘으로

파일내 캐릭터들이 0~128 ascii 범위를 넘지 않으면

텍스트, 넘으면 바이너리로 처리하는것도 쉽지않네요

(2바이트 문자, 한글, 중국어... 등 때문에..)

좋은 방법이나 알고리즘 어디 없나요?

aero의 이미지

Perl의 File::Find 모듈( http://search.cpan.org/perldoc?File::Find )과
file test 연산자( http://perldoc.perl.org/functions/-X.html )를 사용하여

perl -MFile::Find -e 'find({ wanted=>sub{ print "$File::Find::name\n" if -f $_ && -B $_ },no_chdir=>1 },".")'

위 one-liner는 현재디렉토리 하위를 recursive하게 탐색하여 대상이 파일이고(-f) 바이너리(-B)이면 프린트하는 겁니다.

macros의 이미지

답글 감사합니다.

스크립트가 아닌 C로 처리하는 바이너리/텍스트 구분 알고리즘은 없는지요

raymundo의 이미지

"file" 프로그램의 소스를 구해서 살펴보시는 건 어떨까요.

euc-kr 로 인코딩된 파일의 경우 ISO-8859로 인식하고 있는 걸 보니 아주 정확히는 못 잡아내는 듯 합니다만..

$ file ./t.pl
./t.pl: ASCII text
$ file korea
korea: ISO-8859 text
$ file utf
utf: UTF-8 Unicode text

좋은 하루 되세요!

macros의 이미지

감사합니다.

file 소스를 참고 했었습니다.

file 역시 각 파일들의 magic key 값과 포지션 정보를 db 파일로 가지고 있다가

실행 될 때 매칭시켜 값을 출력하더군요.

텍스트와 바이너리를 구분하는 번뜩이는 아이디어나 알고리즘이 없을까요..?

쉽지않네요..

송효진의 이미지

UTF-8 to UTF-8 과 CP949 to CP949 로 iconv 해서 오류나는가로 판단하는건 어떨까요?

emerge money
http://wiki.kldp.org/wiki.php/GentooInstallSimple - 명령어도 몇개 안되요~
http://xenosi.de/

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.