검색엔진에 한글로 검색시 한글 캐릭셋이 다른 이유...
글쓴이: googling / 작성시간: 수, 2005/05/11 - 4:57오후
안녕하세요.
아파치 웹로그의 레퍼럴에 대해서 각 검색엔진에서 어떤 검색어로 들어오는지 구분하기 위해 펄로 프로그래밍을 하던중 궁금한 점이 몇가지 생겼습니다.
리눅스라는 단어로 각 검색사이트에 가서 검색해보니,
리눅스라는 단어가 다음의 문자로 변경이 되더군요..
yahoo : %BE%E7%C3%CA
naver : %B8%AE%B4%AA%BD%BA
daum : %B8%AE%B4%AA%BD%BA
nate : %B8%AE%B4%AA%BD%BA
google : %EB%A6%AC%EB%88%85%EC%8A%A4
msn : %B8%AE%B4%AA%BD%BA
naver, daum, nate, msn 이 같은 형태고, yahoo, google 이 또다른 형태..제가 방문했던 검색사이트에서 총 3가지 형태로 나타났습니다.
왜 이렇게 다른 문자형태로 나타나는지.. 이것이 요즘 많이 논의되고 있는 euc_kr, utf 등과 관련이 있는걸까요?
펄에서 이렇게 다른 형태의 문자들을 한글로 변환하는 방법은 어떤것이 있을까요?
감사합니다.
Forums:
naver , nate , daum은 우선 한글 검색엔진 입니다
naver , nate , daum
은 우선 한글 검색엔진 입니다 즉 한글 사용자만을 대상으로
서비스를 하니 코드셋이 KSC5610 기반으로 갈꺼구요
그리고 google 의 경우 다국어 검색엔진 입니다
엔진의 캐릭터셋이 UTF 이다 보니
그런 차이가 생긴것 같네요
가자 해외로 ~ .. 돈 벌러.
검색엔진 인코딩..
다음이나 네이버같은 경우는 입력창에 들어간 문자열을 단순히 urlencode하여 검색합니다.
그리고 인터넷 익스플로러의 주소창에 한글로 집어넣으면(넷피아같은 플러그인이 설치되어 있지 않은 경우에)
UTF-8로 인코딩한 후 그걸 다시 urlencode 한 결과로 검색합니다.
펄에서 문자열 인코딩은 잘 모르겠군요 :)
P.S. 그나저나.. 저만 그런가.. 요새 KLDP 너무 자주 로그아웃되는군요.
각 검색사이트 메인페이지의 케릭셋을 살펴보니 다음과 같네요..ya
각 검색사이트 메인페이지의 케릭셋을 살펴보니 다음과 같네요..
yahoo:charset=euc-kr
naver:charset=euc-kr
daum:charset=euc-kr
nate:charset=euc-kr
google:charset=UTF-8
msn:charset=ks_c_5601-1987
인터넷 익스플로러의 주소창에 검색어를 입력한것이 아니고, 검색사이트의 검색어 입력폼에 입력한 결과였습니다.