CentOS를 쓰고있습니다 최신 xpdf를 다운받아서 한글관련 CMap 셋팅도 해줬구요 ....그런데도 한글PDF 문서의 한글부분 추출이 안되고 있습니다 도움 바랍니다
해당pdf파일이 pdf뷰어에서 한글검색은 되던가요?
예전 latex으로 만들어진 한글 pdf파일의 경우 한글검색도 안되는 경우가 있더군요. 그런경우 마우스로 파일의 아무한글이나 긁은다음 다른 곳에 복사해보면 깨진 글이 복사되는 것을 볼 수 있습니다. 즉 한글이 pdf안에 깨져서 들어있죠.
그런경우 아마 한글추출도 안될거 같습니다.
'한글' 이 들어가 있고 이 '한글'이 'CMAP' 과 'CID font' 등을 통해 제대로 렌더링은 되고 있다면 한글이 깨져서 들어간 것은 아니라고 봅니다. 소프트웨어의 버그이거나 '한글' 지원 부족이겠죠.
-- 오랫동안 꿈을 그리는 사람은 그 꿈을 닮아간다...
http://mytears.org ~(~_~)~ 나 한줄기 바람처럼..
오랫동안 꿈을 그리는 사람은 그 꿈을 닮아간다...
예를 들면
http://www.cinsk.org/cfaqs/index-ko.html
이런 pdf 파일들을 얘기한 것이었습니다.
xpdf에서 한글은 아무 문제가 없습니다 제가 의심하는 건 제 리눅스의 한글세팅(?)에 문제가 아닐까 합니다만 일단 Cent OS에서 한글셋팅이 제대로 되어있는지 확인하는 방법이 있나요?
xpdf에서 검색에 아무 문제가 없다는 뜻인가요?
..
-enc utf-8 옵션을 주셨는지요?
또는 .xpdfrc 파일에서 #textEncoding UTF-8 의 주석마킹(#)을 제거하면 항상 UTF-8이 기본값으로 설정됩니다.
텍스트추출은 PDF 렌더링 필터에 가기전에 문제이기 때문에 CMAP 은 크게 문제되지 않습니다.
비밀스러운 내용이 아니라면 PDF 파일을 웹에 올려서 다운받을 수 있게 해 주시면 문제 확인이 빠를 듯 합니다.
텍스트 포맷에 대한 자세한 정보
<code>
<blockcode>
<apache>
<applescript>
<autoconf>
<awk>
<bash>
<c>
<cpp>
<css>
<diff>
<drupal5>
<drupal6>
<gdb>
<html>
<html5>
<java>
<javascript>
<ldif>
<lua>
<make>
<mysql>
<perl>
<perl6>
<php>
<pgsql>
<proftpd>
<python>
<reg>
<spec>
<ruby>
<foo>
[foo]
해당pdf파일이
해당pdf파일이 pdf뷰어에서 한글검색은 되던가요?
예전 latex으로 만들어진 한글 pdf파일의 경우 한글검색도 안되는 경우가 있더군요.
그런경우 마우스로 파일의 아무한글이나 긁은다음
다른 곳에 복사해보면 깨진 글이 복사되는 것을 볼 수 있습니다.
즉 한글이 pdf안에 깨져서 들어있죠.
그런경우 아마 한글추출도 안될거 같습니다.
'한글' 이 들어가
'한글' 이 들어가 있고 이 '한글'이 'CMAP' 과 'CID font' 등을 통해 제대로 렌더링은 되고 있다면 한글이 깨져서 들어간 것은 아니라고 봅니다. 소프트웨어의 버그이거나 '한글' 지원 부족이겠죠.
--
오랫동안 꿈을 그리는 사람은 그 꿈을 닮아간다...
http://mytears.org ~(~_~)~
나 한줄기 바람처럼..
오랫동안 꿈을 그리는 사람은 그 꿈을 닮아간다...
http://mytears.org ~(~_~)~
나 한줄기 바람처럼..
예를
예를 들면
http://www.cinsk.org/cfaqs/index-ko.html
이런 pdf 파일들을 얘기한 것이었습니다.
pdf뷰어란 xpdf를 말씀하시는 거죠?
xpdf에서 한글은 아무 문제가 없습니다
제가 의심하는 건 제 리눅스의 한글세팅(?)에 문제가 아닐까 합니다만
일단 Cent OS에서 한글셋팅이 제대로 되어있는지 확인하는 방법이 있나요?
xpdf에서 검색에 아무
xpdf에서 검색에 아무 문제가 없다는 뜻인가요?
네..xpdf에서는 아무 문제가 없습니다
..
pdftotext 한글 추출시
-enc utf-8 옵션을 주셨는지요?
또는 .xpdfrc 파일에서
#textEncoding UTF-8
의 주석마킹(#)을 제거하면 항상 UTF-8이 기본값으로 설정됩니다.
텍스트추출은 PDF 렌더링 필터에 가기전에 문제이기 때문에 CMAP 은 크게 문제되지 않습니다.
비밀스러운 내용이
비밀스러운 내용이 아니라면 PDF 파일을 웹에 올려서 다운받을 수 있게 해 주시면 문제 확인이 빠를 듯 합니다.
댓글 달기