트위터 웹사이트 파싱에 질문 드립니다
글쓴이: tmzks1 / 작성시간: 금, 2014/10/03 - 9:17오후
빅데이터 공부중인 학부생입니다.
제가 이번에 트위터 페이지를 실시간 크롤링 하려고 하는데 막히는 부분이 있어 질문드려봅니다.
트위터api를 사용치 않고 웹 페이지를 접속하여 간단하게 파싱하려 하는데 search.twitter 페이지 같은 경우
스크롤을 아래로 내리면 메시지가 뒤이어 추가 로드 되는 방식으로 어찌해야 코드 상에서 그런 추가로드 메시지들도 가져올 수 있을지 막막합니다
혹시 좋은 방법 있으시면 답변 부탁드릴게요 ㅠㅠ
Forums:
스크롤이 내려가면 추가 로드된다는건, 스크롤이
스크롤이 내려가면 추가 로드된다는건, 스크롤이 내려갈때마다 특정 signal을 서버로 보낸다는 것이겠죠.
그럼 네트워크 패킷을 검사해서 그 signal을 찾아내면 간단하게 해결될 것으로 보입니다.
크롬으로 트위터 접속해서 개발자 툴 열고, 네트워크
크롬으로 트위터 접속해서 개발자 툴 열고, 네트워크 탭에서 XHR만 필터링 해서, 스크롤 내릴 때 어떤 요청을 보내는지 살펴보세요.
와 .. 정말 감사합니다
패킷을 와이어샤크와 크롬 개발자 툴로 분석해봤는데 정말 뭔가 나오더군요 ㅠㅠ
이제야 어떻게 해야 겠다 감이 잡혔습니다 정말
제 짧은 지식으로 응용하기는 벅차 다른 글에서도 도움을 받았습니다.
network request를 이용해 크롤링을 하는 튜토리얼입니다.
http://www.youtube.com/watch?v=5FoSwMZ4uJg&index=46&list=UU3IcEolPgWzJzKl38XMP99w
댓글 달기