doc,ppt 파일 텍스트 추출

spacelee의 이미지

doc,ppt,xls 파일에서 텍스트 추출한 경험이나 정보 있으시면
도움 부탁드립니당.

MS 파일들에 대해서,
단순 텍스트 추출해서 검색만 하는게 목적입니다.
게시판에서 검색은 해봤는데 자세한 답변은 없어서요.

대체로 openoffice에서 모듈을 가져온다고 하시던데
어렵다고 하던데 직접 만들어보신 분 계신가요?

아니면 다른 정보 아시면 알려주시면 감솨~

익명 사용자의 이미지

* 만일, text추출이 주가 아니라, 검색및색인이 주목적이라면, 라이브러리를 구매해서 사용하시는 것은 어떤지?

파일 포맷이 고정적으로 있지 않다.(자꾸 업버전된다)
국산 파일포맷(.hwp등)을 무시할 수 없다.
이런 정도의 이유로 몇몇 검색엔진 업체에서 특정업체의 파일필터를 사용하는 것으로 알고 있습니다.

- 업체소개는 제가 몰라서 못하겠군요. 모 수백개 파일포맷에서 텍스트 추출라이브러리를 제공한다는 ... 이런.. 얘기를 들은 적은 있는데... --;

spacelee의 이미지

조금 알아는 봤는데..비싼거 같더라구요. ㅜㅜ

권위를 의심할 것,어긋남을 존경할 것,자리잡기를 거부할 것,항상 자신을 재창조할 것 - MIT 미디어랩 -

정태영의 이미지

perl 의 parseExcel 같은 모듈이면...

http://search.cpan.org/~kwitknr/Spreadsheet-ParseExcel-0.2602/ParseExcel.pm
ppt 등을 위한 것도 찾아보면 있을 듯 하네요

오랫동안 꿈을 그리는 사람은 그 꿈을 닮아간다...

http://mytears.org ~(~_~)~
나 한줄기 바람처럼..

futari의 이미지

sf에서 antiword인가 하는게 있었던 것으로...

-------------------------
The universe is run by the complex interweaving of three elements: matter, energy, and enlightened self-interest.
- G'kar, Babylon 5

spacelee의 이미지

감솨~~~
고수 분들이 많으셔서 많이 도움이 되네요.

좋은 정보 감솨드립니다.^^

권위를 의심할 것,어긋남을 존경할 것,자리잡기를 거부할 것,항상 자신을 재창조할 것 - MIT 미디어랩 -

atie의 이미지

Java에서는 대표적인 것으로 poi를 씁니다.
Excel 파일 전용으로는 jexcelapi도 있습니다.

----
I paint objects as I think them, not as I see them.
atie's minipage

spacelee의 이미지

어떤 분이 알려주셨는데..
여기 있는 소스가 괜찮은거 같네요.^^

http://www.45.free.net/~vitus/ice/catdoc/#competition

권위를 의심할 것,어긋남을 존경할 것,자리잡기를 거부할 것,항상 자신을 재창조할 것 - MIT 미디어랩 -

atie의 이미지

엑셀에다 Database migration을 하기 위한 두 DB간 매핑 정보를 일차로 80여개 테이블에 1500 줄 정도 분량을 동료가 몇 주에 작업을 해서 건내주었는데, 3시간 poi를 쓰는 자바 코딩을 해서 SQL로 뽑아 보니 딱 5초 걸리는 군요.
200G 되는 DB라고 하니 DB connection 갯수를 쓰레드로 조절해서 데이타를 DB에다 집어넣는 매니저 클래스 하나 붙여서 넘겨주면 아주 좋아할 듯 합니다.

----
I paint objects as I think them, not as I see them.
atie's minipage

charsyam의 이미지

spacelee wrote:
doc,ppt,xls 파일에서 텍스트 추출한 경험이나 정보 있으시면
도움 부탁드립니당.

MS 파일들에 대해서,
단순 텍스트 추출해서 검색만 하는게 목적입니다.
게시판에서 검색은 해봤는데 자세한 답변은 없어서요.

대체로 openoffice에서 모듈을 가져온다고 하시던데
어렵다고 하던데 직접 만들어보신 분 계신가요?

아니면 다른 정보 아시면 알려주시면 감솨~

xlhtml 이라는 걸 찾아보시길
word 는 antiword
ppt 도 ppthtml 인가가 있습니다. 잘 나옵니다.
고운 하루되시길... pdf 는 xpdf 쪽을 보시면
될듯 합니다.

=========================
CharSyam ^^ --- 고운 하루
=========================

명이의 이미지

ppt파일을 swf파일로 변환하는 프로그람의 소스를 알려주시면

감사하겠습니다.

VC코드면 좋고, 다른것도 괜찮습니다.

ppt파일과 swf파일의 포맷도 알고 계시는분들

알려주시면 감사하겠습니다.

찾다가 너무 지쳐서 여러분께 부탁드립니다.

꼭 도와주시길!

그럼 안녕..

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.