혹 pdf파일을 계정을 업로드 하면 자동으로 파일 내 제목을 listup해주는 프로그램 있나요?
글쓴이: nike984 / 작성시간: 화, 2006/01/24 - 2:41오전
제가 제 계정에 관련 분야 논문 중 중요한걸 모아서 자주 올리는 편입니다.
근데 논문을 올릴때마다 논문 제목을 따로 적고 파일 올려서 링크를
걸려니 한두개 파일일때는 그게 가능한데 한번에 10~20개 이상의
파일을 올리게 되면 이건 시간 낭비가 심하더라고요.
그래서 혹 웹 기반 프로그램 중에 ftp로 pdf파일을 업로드 하면
그 파일내 제목만 따로 추출해서 파일 리스트와 함께
제목을 표시해주는 포로그램이 있는가 궁금합니다.
이런 프로그램 알고 계시면 좀 알려주세요.
Forums:
내가 올린글에 내가 답변하게 되네요 -_-;;;;암도 답변을 안올려주
내가 올린글에 내가 답변하게 되네요 -_-;;;;
암도 답변을 안올려주셔서리 ㅠㅠ
구글링을 한참했더니 제가 원하는 것처럼 pdf file indexing을
할려면 결국 pdf file의 metadata를 추출해줄수 있는 parse가
필요하더군요. 지금 나와 있는 것 중에 제가 찾은 상용제품은~
PDFBox : Java API from Ben Litchfield
XPDF: open source tool
pdftotext라는 유틸리티를 써서 pdf file 내용을 추출할 수
있다더군요.
JPedal: Java API, pdf문서에서 text와 이미지 추출이 가능합니다.
그말고도 몇가지 더 있긴 한데 정리가 안되서 여까지만 하겠습니다.
근데 이 프로그램들이 보면 데스크탑에서 개인이 이용하거나
아님 자바 프로그램인데요~ 전 이 서비스를 웹계정에 올려서
하고 싶거든요. 제 cafe24계정이 java는 안돌아가는거 같고
php만 돌아가는 것 같아서 왠만하면 php 소스를 구하고
싶은데 찾기 어렵네요.
혹 php로 구현된 pdf parser나 pdf indexing가능한 툴
알고 계신 분 있나요?
이글 처음 봤을때.. 하나 만들어봐도 되겠다 싶었는데.. 손이 잘 안가더
이글 처음 봤을때.. 하나 만들어봐도 되겠다 싶었는데.. 손이 잘 안가더라구요.
펄을 하시면 간단히 만들수 있을것 같습니다.
cpan에서 찾아보니 pdf 관련 모듈이 꽤 여러개 있네요. 잠깐만 보면 금방 만들수 있을것 같습니다.
http://search.cpan.org/search?query=pdf&mode=all
원하시는것과 비슷한 형태가 이런것이 될지 모르겠습니다.지원하는 언어에
원하시는것과 비슷한 형태가 이런것이 될지 모르겠습니다.
지원하는 언어에 한국어가 없는것이 문제가 될수는 있겠습니다..
http//www.isearchthenet.com/pro/index.php
@ 단순히 PDF 파일에서 제목만 추출해서, 관리하고 싶으시다면
따로 제목-파일명 테이블을 만들어서 관리하시는게
최소 비용이 아닐까 생각됩니다.
[quote="wpcasper"]이글 처음 봤을때.. 하나 만들어봐도 되
제가 펄을 전혀 쓸줄 몰라서 안타깝네요 ㅠㅠ
그래도 제가 나중에 알려주신 라이브러리 봐가면서
한번 해보겠습니다. ^^
예, 제가 생각하는 것도 metadata에서 모든 것을 추출하고
싶은 것이 아니라 논문 제목 정보만 뽑아서
리스트로 만들어주는 걸 하고 싶은거였습니다.
제 홈피에 joomla를 돌리고 있기때문에 joomla 모듈이
있으면 가장 편한데 딱하나 발견했지만 상용이더군요. ㅠㅠ
알려주신 제품도 감사하지만 안타깝게도 상용입니다. ㅠㅠ