검색결과페이지 HTML 가져오려면
Jsoup으로 구현중인데요 웹크롤러 구현할생각입니다.
package ds;
import java.io.File;
import java.io.IOException;
import java.net.URL;
import java.util.Enumeration;
import javax.annotation.processing.FilerException;
import javax.servlet.http.HttpServletRequest;
import org.apache.http.client.fluent.Request;
import org.jsoup.*;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class test
{
public static void main(String[] args)
{
// TODO Auto-generated method stubI
String url = "https://www.google.co.kr/#newwindow=1&q=%EC%9A%A9";
try
{
Document doc = Jsoup
.connect(url)
.header("Accept-Language", "en-US")
.header("Accept-Encoding", "gzip,deflate,sdch")
.header("GET", "/articles/news/today.asp HTTP/1.1")
.header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
.header("User-Agent",
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:5.0) Gecko/20100101 Firefox/5.0")
.header("Host", "http://www.google.co.kr/").header("Connection", "Keep-Alive")
.get();
Elements links = doc.getElementsByTag("a");
for(Element link : links){
System.out.println(link.toString());
}
} catch (IOException e)
{
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
구글에서 용을 검색하고 그 검색페이지에서 결과페이지에 대한 링크주소를 가져와서 다시 찾구 이런식으로할라는데
웹페이지를 긁어오면 검색된 결과에대한 HTML소스는 가져오지못하는데 무슨문제일까요?
댓글 달기