텍스트 파일과 바이너리 파일 분류
글쓴이: macros / 작성시간: 수, 2008/12/17 - 11:23오전
스시템 상의 파일들을 메모리에 읽어온 후
이 파일이 텍스트인지 바이너리인지 확인을 해야합니다.
몇몇 바이너리 파일들은 헤더의 매직키를 가지고있어서
어떤 종류의 파일임을 알수가 있지만,
지금의 경우엔 단순히 텍스트와 바이너리 2가지 기준으로 분류하는거죠.
단순하게 알고리즘으로
파일내 캐릭터들이 0~128 ascii 범위를 넘지 않으면
텍스트, 넘으면 바이너리로 처리하는것도 쉽지않네요
(2바이트 문자, 한글, 중국어... 등 때문에..)
좋은 방법이나 알고리즘 어디 없나요?
Forums:
이렇게 해보세요.
Perl의 File::Find 모듈( http://search.cpan.org/perldoc?File::Find )과
file test 연산자( http://perldoc.perl.org/functions/-X.html )를 사용하여
위 one-liner는 현재디렉토리 하위를 recursive하게 탐색하여 대상이 파일이고(-f) 바이너리(-B)이면 프린트하는 겁니다.
답글
답글 감사합니다.
스크립트가 아닌 C로 처리하는 바이너리/텍스트 구분 알고리즘은 없는지요
"file" 프로그램의
"file" 프로그램의 소스를 구해서 살펴보시는 건 어떨까요.
euc-kr 로 인코딩된 파일의 경우 ISO-8859로 인식하고 있는 걸 보니 아주 정확히는 못 잡아내는 듯 합니다만..
좋은 하루 되세요!
감사합니다.file
감사합니다.
file 소스를 참고 했었습니다.
file 역시 각 파일들의 magic key 값과 포지션 정보를 db 파일로 가지고 있다가
실행 될 때 매칭시켜 값을 출력하더군요.
텍스트와 바이너리를 구분하는 번뜩이는 아이디어나 알고리즘이 없을까요..?
쉽지않네요..
UTF-8 to UTF-8 과 CP949 to
UTF-8 to UTF-8 과 CP949 to CP949 로 iconv 해서 오류나는가로 판단하는건 어떨까요?
emerge money
http://wiki.kldp.org/wiki.php/GentooInstallSimple - 명령어도 몇개 안되요~
http://xenosi.de/
https://xenosi.de/
댓글 달기