크롤링 에러처리 관련..
글쓴이: secudent / 작성시간: 월, 2018/12/10 - 11:56오전
python requests, beautifulsoup를 사용하고 있습니다.
크롤링 대상 사이트 내에 50만 페이지 정도가 있다고 가정할 때
도중에 Connection이 끊어지는 경우가 있는데 (ResetConnection) 등등..
보통 이 에러처리를 어떻게 해결하시는 편이 좋을까요? 현재는 그냥 Print만 합니다.
(저는 에러로 끊겨도 계속 연결을 시도하고 싶습니다.)
현재 코드는 이러합니다. 그리고 time_out을 설정하지 않았는데 설정 하고 안하고의 차이가 궁금합니다.
try:
req = requests.get(url, headers=get_headers())
soup = BeautifulSoup(req.content, 'lxml')
req.close()
return soup
except requests.ConnectionError as e:
print("OOPS!! Connection Error. Make sure you are connected to Internet. Technical Details given below.\n")
print(str(e))
except requests.Timeout as e:
print("OOPS!! Timeout Error")
print(str(e))
except requests.RequestException as e:
print("OOPS!! General Error")
print(str(e))
except KeyboardInterrupt:
print("Someone closed the program")Forums:


댓글 달기