[완료]웹페이지 스크랩하는 프로그램 만들고 싶습니다.
글쓴이: mbcls / 작성시간: 화, 2011/11/08 - 9:54오후
개발 초짜 학부생입니다.
프로그램을 하나 개발하고자 합니다.
인터넷 웹 페이지에서 중요한 내용만 뽑아서 컴퓨터에 저장하는 기능을 구현하고 싶습니다.
예를 들면 Instapaper 나 Read It later, Readerability같은 서비스들은 "Text-Only"라고 해서 주어진 사이트에서 불필요한 내용은 배재한 체 글과 그림만 추출해서 사용자에게 보여주죠. 저는 이러한 기능을 구현하고 싶습니다.
관련 문서를 검색해보니 'java page scraping', 'crawlling', 'xml parsing' 등등의 정보가 뜨네요.
보니 대충 자바 언어와 관련된 기술인 것 같습니다만, 정확히 어떤 개발 언어인지 잘 모르겠습니다.
위와 같은 프로그램을 구현하기 위해서는 어떤 언어로 개발해야 하나요?
php? xml? 아니면 그냥 java?
(사실 php, xml 이런 것에 대해 지식이 전무합니다. 학교에서 배운 java가 다인지라...)
어떤 주제로 공부해야 하는 지 알려주시면 고맙겠습니다~~
Forums:
언어는 수단입니다. 알고리즘과 아키텍쳐 설계가 더
언어는 수단입니다. 알고리즘과 아키텍쳐 설계가 더 중요하지요.
물론 파고 들면 언어 선택이 크리티컬해지지만.. 질문하신 분의 상황을 봤을 때에는 언어 선택보다 알고리즘 측면에 집중하는 것이 좋을 것 같습니다.
그리고 간단한 구현은 보통 java 보다 스크립트 언어들이 "개발속도"가 빠릅니다.
쉘스크립트나 파이썬으로 그냥 하시는게 정신건강상(?)
쉘스크립트나 파이썬으로 그냥 하시는게 정신건강상(?) 좋을겁니당.
1. HTML/XML파서로 웹 페이지의 내용을
1. HTML/XML파서로 웹 페이지의 내용을 분리하고
2. "중요한 내용"을 판별하고
3. 판별된 "중요한 내용"만 저장한다.
4. 저장된 중요한 내용을 HTML/XML 등으로 추출하여 사용자에게 보여준다
이정도가 알고리즘이 되겠네요.
개발 언어는 C, Java, C++, Python, PHP, Perl 등 편한거 아무거나 쓰시면 됩니다. 사실은 어셈블리언어로도 개발 가능하긴 해요.
전혀 감이 안 잡힌다면, 이미 구현된 다른 프로그램의 소스나 작동 방식을 분석하세요.
피할 수 있을때 즐겨라! http://melotopia.net/b
답변 감사합니다.
스크립틍 언어는 한번도 접해보지 못한지라 고민스럽네요^^;
다른 기존에 구현된 프로그램들의 소스라고 하셨는데 혹시 어디서 볼 수 있을까요??
http://en.wikipedia.org/wiki/
http://en.wikipedia.org/wiki/Web_crawler
http://en.wikipedia.org/wiki/Web_scraping
그리고 검색...
가장 처음 본문에서 말했던 검색어들로 검색해서 100개 정도의 문서를 읽으면 대충 감이 올거예요. 안오면 100개 더 읽으세요.
그 다음엔 감이 온 검색어들로 새로 검색해서 100개 정도 더 읽고.
그렇게 반복하면 뭔가 감이 잡힐거예요.
피할 수 있을때 즐겨라! http://melotopia.net/b
댓글 달기