PDFBOX로 한글 PDF 파일에서 텍스트 추출시..

글쓴이: icanfly / 작성시간: 수, 2005/12/07 - 5:19오후

얼마전에 pdfbox를 알아서 시험삼아 한번 돌려 보는데..

tex stripper로 텍스트를 뽑아내니까...

영어는 잘되는데 한글은 왕창 깨져버리는군요

pdfbox cjk로 google검색을 하니

무슨 cmap파일이 어쪄고 하는데..

혹시 pdfbox에서 한글처리해보신분 계시면 어떻게 하면되는지

조언을 부탁드리겠습니다.

그런 안녕히..~

Forums:

프로그래밍 QnA

댓글 달기

[quote]$ man xpdf...SEE ALSO

글쓴이: 익명 사용자 / 작성시간: 수, 2005/12/07 - 6:21오후

Quote:

$ man xpdf
...
SEE ALSO
pdftops(1), pdftotext(1), pdfinfo(1), pdffonts(1), pdftoppm(1), pdfim-
ages(1), xpdfrc(5)
http://www.foolabs.com/xpdf/

이것으로는 잘 안되나요?
궁금....

답글

제 시스템이 locale이 [color=red]UTF-8[/color]인

글쓴이: 익명 사용자 / 작성시간: 수, 2005/12/07 - 6:39오후

제 시스템이 locale이 UTF-8인지라..... pdf문서 하나 주워다가 테스트해보니...

Quote:

$ pdftotext -enc UTF-8 korean-testdata.pdf
$ cat korean-testdata.txt
한글로 나오지롱~ 메롱~
...

잘되더군요.
질문은 이게 아니었지요? 근데.... --;

답글

pdftotext로 대충 돌려 보니 상황이 이렇네요 pdf 1.4

글쓴이: icanfly / 작성시간: 목, 2005/12/08 - 10:27오전

pdftotext로 대충 돌려 보니 상황이 이렇네요

pdf 1.4 font 포함 됨
font 미포함 안됨

pdf 1.3 font 포함 안됨
font 미포함 안됨

pdf 1.2 font 포함 됨
font 미포함 됨

이렇네요 근데 PDFBOX를 써서 해도 같은 결과가 나오는군요..

버전에 상관없이 폰트 포함 여부에 상관없이 하는 방법을 없을까요?

답글

댓글 달기

이름

제목

댓글 *

텍스트 포맷에 대한 자세한 정보

텍스트 양식

Filtered HTML

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
You can use Textile markup to format text.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
Quick Tips:
- Two or more spaces at a line's end = Line break
- Double returns = Paragraph
- *Single asterisks* or _single underscores_ = Emphasis
- **Double** or __double__ = Strong
- This is [a link](http://the.link.example.com "The optional title text")
For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

HTML 태그를 사용할 수 없습니다.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
줄과 단락은 자동으로 분리됩니다.

CAPTCHA

이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.

부 메뉴

PDFBOX로 한글 PDF 파일에서 텍스트 추출시..

[quote]$ man xpdf...SEE ALSO

제 시스템이 locale이 [color=red]UTF-8[/color]인

pdftotext로 대충 돌려 보니 상황이 이렇네요 pdf 1.4

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

둘러보기

부 메뉴

현재 위치

PDFBOX로 한글 PDF 파일에서 텍스트 추출시..

[quote]$ man xpdf...SEE ALSO

제 시스템이 locale이 [color=red]UTF-8[/color]인

pdftotext로 대충 돌려 보니 상황이 이렇네요 pdf 1.4

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

검색 폼

둘러보기

사용자 로그인

Oauth2 Login :