파이썬을 이용해서 개발중인데 질문이 있습니다. ( 필터링 ?매칭?)
글쓴이: jinmon / 작성시간: 수, 2016/02/03 - 10:22오전
안녕하세요
아직 입문자라 혼자 해결하는데 한계가 있어 질문드립니다..
저는 지금 파이썬을 이용해서 간단한 크롤러를 개발중입니다.(검색어를 입력후 관련 사이트 주소만 긁어내는)
현재 진행 상황을 간단히 설명드리면
url을 입력한 상태에서, 전체소스에서
url 추출 -> 추출한 url에 들어가서 특정 정규식으로 매칭 -> 타임아웃,기타 예외처리 -> 페이지 내의 url 마지막인지 확인 -> 마지막 페이지 인지 확인-> 결과값으로 매칭이 안된 사이트 출력
여기까지 진행한 상태입니다.
그리고.....앞으로
1. 예외사이트 리스트1 (이전에 타임아웃,기타 예외처리 결과로 구성)
2. 예외사이트 리스트2 (크롤러 실행했을때 나오는 예외결과로 구성)
3. 결과값 (크롤러 실행했을 때 확인하고 싶은 url)
url 추출 -> 추출한 url에 들어가서 특정 정규식으로 매칭 ->#### 1에 있는 url이면 삭제#####-> 타임아웃,기타 예외처리 ->###예외처리 값 2에 저장///아닌 값 3에 저장 ###-> 페이지 내의 url 마지막인지 확인 -> 마지막 페이지 인지 확인-> ####3출력####
이렇게 하고 싶은데요...
->#### 1에 있는 url이면 삭제#####-> 이거를 어떤 함수나 방식으로 처리해야할 지를 모르겠습니다.,
답변 부탁드립니다......
감사합니다 ..(_ _)
Forums:
이거 참고해보세요.
크롤러를 그냥 만드셔도 되는지는 저도 잘 모르겠네요.
허가 받으시는것이 좋을겁니다.
파이썬 Python 으로 HTML에서 HREF의 URL 주소와 값 분리하는 방법
http://kldp.org/node/154229
주소부분을 따올수 있는 그런 함수가 필요
http://kldp.org/node/153979
파이썬에서 데이터 읽기
http://kldp.org/node/153697
----------------------------------------------------------------------------
젊음'은 모든것을 가능하게 만든다.
매일 1억명이 사용하는 프로그램을 함께 만들어보고 싶습니다.
정규 근로 시간을 지키는. 야근 없는 회사와 거래합니다.
각 분야별. 좋은 책'이나 사이트' 블로그' 링크 소개 받습니다. shintx@naver.com
댓글 달기