우분투 환경에서 너치 크롤링 시 pdf URL 텍스트 파싱하는 방법..
글쓴이: mathewpark90 / 작성시간: 일, 2015/10/11 - 8:59오후
안녕하세요. 검색 엔진을 흉내내보려고 하는 허접 학부생입니다..
너치 1.10 v 으로 pdf 파일을 seed URL로 잡고 긁어와서 segment 디렉토리를 덤프떴는데
일반적인 웹페이지는 잘 가져오는데 pdf는 깨져있드라구요..
구글해봤더니 티카를 쓰라는데 어떻게 써야할지 잘 모르겠더군요..
어떤식으로 pdf 파싱을 진행해보면 될까요 ㅠㅠ?
Forums:
댓글 달기