얼마전에 pdfbox를 알아서 시험삼아 한번 돌려 보는데..
tex stripper로 텍스트를 뽑아내니까...
영어는 잘되는데 한글은 왕창 깨져버리는군요
pdfbox cjk로 google검색을 하니
무슨 cmap파일이 어쪄고 하는데..
혹시 pdfbox에서 한글처리해보신분 계시면 어떻게 하면되는지
조언을 부탁드리겠습니다.
그런 안녕히..~
$ man xpdf ... SEE ALSO pdftops(1), pdftotext(1), pdfinfo(1), pdffonts(1), pdftoppm(1), pdfim- ages(1), xpdfrc(5)http://www.foolabs.com/xpdf/
제 시스템이 locale이 UTF-8인지라..... pdf문서 하나 주워다가 테스트해보니...
$ pdftotext -enc UTF-8 korean-testdata.pdf $ cat korean-testdata.txt 한글로 나오지롱~ 메롱~ ...
$ cat korean-testdata.txt 한글로 나오지롱~ 메롱~ ...
pdftotext로 대충 돌려 보니 상황이 이렇네요
pdf 1.4 font 포함 됨 font 미포함 안됨
pdf 1.3 font 포함 안됨 font 미포함 안됨
pdf 1.2 font 포함 됨 font 미포함 됨
이렇네요 근데 PDFBOX를 써서 해도 같은 결과가 나오는군요..
버전에 상관없이 폰트 포함 여부에 상관없이 하는 방법을 없을까요?
텍스트 포맷에 대한 자세한 정보
<code>
<blockcode>
<apache>
<applescript>
<autoconf>
<awk>
<bash>
<c>
<cpp>
<css>
<diff>
<drupal5>
<drupal6>
<gdb>
<html>
<html5>
<java>
<javascript>
<ldif>
<lua>
<make>
<mysql>
<perl>
<perl6>
<php>
<pgsql>
<proftpd>
<python>
<reg>
<spec>
<ruby>
<foo>
[foo]
[quote]$ man xpdf...SEE ALSO
이것으로는 잘 안되나요?
궁금....
제 시스템이 locale이 [color=red]UTF-8[/color]인
제 시스템이 locale이 UTF-8인지라..... pdf문서 하나 주워다가 테스트해보니...
질문은 이게 아니었지요? 근데.... --;
pdftotext로 대충 돌려 보니 상황이 이렇네요 pdf 1.4
pdftotext로 대충 돌려 보니 상황이 이렇네요
pdf 1.4 font 포함 됨
font 미포함 안됨
pdf 1.3 font 포함 안됨
font 미포함 안됨
pdf 1.2 font 포함 됨
font 미포함 됨
이렇네요 근데 PDFBOX를 써서 해도 같은 결과가 나오는군요..
버전에 상관없이 폰트 포함 여부에 상관없이 하는 방법을 없을까요?
댓글 달기