리눅스 환경에서 자바를 이용한 HTML 파싱
글쓴이: tenazer / 작성시간: 월, 2009/02/02 - 5:55오후
현재 자바와 jsp를 이용하여 웹베이스의 파싱 툴을 만들고 있습니다.
지금까지 윈도우 톰캣 환경에서 테스팅을 하다가
리눅스 환경으로 이전을 하였는데
제대로 동작하던 프로그램이 말썽을 부리네요.
지금까지 쓴 방법은 URL을 스트링으로 입력 받아 URL 객체를 만든 후
자바의 HttpURLConnection 클래스를 이용하여 연결을 하고
BufferedReader를 통하여 스트림을 읽어오는 방식으로 구현 하였습니다.
문제는 이전에 url만으로 잘 동작하던 프로그램이 이제는 파일까지 써 줘야 한다는 겁니다.
예를 들어 기존에는
http://www.myhost.com/ 만 url로 넘겨줘도 html코드를 잘 읽어 오더니
지금은
http://www.myhost.com/index.html 이렇게 파일 이름까지 써줘야만 읽어옵니다.
파일 이름을 빼면 다음과 같은 html 코드를 읽어오더군요
html>
frameset rows='*,0' border=0>
frame src='http://www.myhost.com?'>
frame src='http://xxx.xxx.xxx.xxx:10000/top_X.asp?url=www.myhost.com&ip=ooo.ooo.ooo.ooo'>
/frameset>
/html>
무엇이 문제인지 궁금합니다.
윈도우의 자바 버전은 1.6.0_11 이고
리눅스의 자바 버전은 1.6.0_06 입니다.
Forums:
리눅스로 옮기고
리눅스로 옮기고 테스트한 url 과 윈도에서 테스트한 url 이 동일한가요?
--
말할 수 있는 것은 분명하게 말해질 수 있다;
말해질 수 없는 것에 대해서는 침묵해야한다.
논리철학논고 - 루드비히 비트겐슈타인
--
말할 수 있는 것은 분명하게 말해질 수 있다;
말해질 수 없는 것에 대해서는 침묵해야한다.
논리철학논고 - 루드비히 비트겐슈타인
동일합니다.
예 동일합니다.
예를 들어 윈도우에서 http://www.google.com을 입력했을때 잘 되던것이
리눅스 환경에서는 http://www.google.com 으로 똑같이 입력해도 위와 같이 다른 html 소스를 불러옵니다.
제대로 불러오려면 url 뒤에 파일명(경로)까지 붙여줘야 했습니다.
ex) http://www.google.com/index.html
저는 리눅스
저는 리눅스 환경입니다만 둘 다 거의 동일한 결과가 나옵니다.
제가 테스트한 소스입니다.
결과입니다.
diff 를 해 보시면 아시겠지만 차이는 https 접속을 하기 위한 a 태그에서 referer 를 주는 부분을 제외하고는 (google.com 과 google.com/index.html) 동일한 결과를 얻습니다.
--
말할 수 있는 것은 분명하게 말해질 수 있다;
말해질 수 없는 것에 대해서는 침묵해야한다.
논리철학논고 - 루드비히 비트겐슈타인
--
말할 수 있는 것은 분명하게 말해질 수 있다;
말해질 수 없는 것에 대해서는 침묵해야한다.
논리철학논고 - 루드비히 비트겐슈타인
이상하네요.
제 시스템의 차이 때문인지 endofhope님과 같은 코드로 테스트를 해봐도 여전히 다른 결과가 나오네요..
윈도 머신에 proxy 가
윈도 머신에 proxy 가 설정되어 있습니까?
그것 외엔 설명하기 어렵네요.
--
말할 수 있는 것은 분명하게 말해질 수 있다;
말해질 수 없는 것에 대해서는 침묵해야한다.
논리철학논고 - 루드비히 비트겐슈타인
--
말할 수 있는 것은 분명하게 말해질 수 있다;
말해질 수 없는 것에 대해서는 침묵해야한다.
논리철학논고 - 루드비히 비트겐슈타인
댓글 달기