검색엔진에 한글로 검색시 한글 캐릭셋이 다른 이유...

googling의 이미지

안녕하세요.

아파치 웹로그의 레퍼럴에 대해서 각 검색엔진에서 어떤 검색어로 들어오는지 구분하기 위해 펄로 프로그래밍을 하던중 궁금한 점이 몇가지 생겼습니다.

리눅스라는 단어로 각 검색사이트에 가서 검색해보니,
리눅스라는 단어가 다음의 문자로 변경이 되더군요..

yahoo : %BE%E7%C3%CA
naver : %B8%AE%B4%AA%BD%BA
daum : %B8%AE%B4%AA%BD%BA
nate : %B8%AE%B4%AA%BD%BA
google : %EB%A6%AC%EB%88%85%EC%8A%A4
msn : %B8%AE%B4%AA%BD%BA

naver, daum, nate, msn 이 같은 형태고, yahoo, google 이 또다른 형태..제가 방문했던 검색사이트에서 총 3가지 형태로 나타났습니다.

왜 이렇게 다른 문자형태로 나타나는지.. 이것이 요즘 많이 논의되고 있는 euc_kr, utf 등과 관련이 있는걸까요?

펄에서 이렇게 다른 형태의 문자들을 한글로 변환하는 방법은 어떤것이 있을까요?

감사합니다.

kicom95의 이미지

naver , nate , daum

은 우선 한글 검색엔진 입니다 즉 한글 사용자만을 대상으로

서비스를 하니 코드셋이 KSC5610 기반으로 갈꺼구요

그리고 google 의 경우 다국어 검색엔진 입니다

엔진의 캐릭터셋이 UTF 이다 보니

그런 차이가 생긴것 같네요

가자 해외로 ~ .. 돈 벌러.

madkoala의 이미지

다음이나 네이버같은 경우는 입력창에 들어간 문자열을 단순히 urlencode하여 검색합니다.
그리고 인터넷 익스플로러의 주소창에 한글로 집어넣으면(넷피아같은 플러그인이 설치되어 있지 않은 경우에)
UTF-8로 인코딩한 후 그걸 다시 urlencode 한 결과로 검색합니다.

펄에서 문자열 인코딩은 잘 모르겠군요 :)

P.S. 그나저나.. 저만 그런가.. 요새 KLDP 너무 자주 로그아웃되는군요.

googling의 이미지

각 검색사이트 메인페이지의 케릭셋을 살펴보니 다음과 같네요..

yahoo:charset=euc-kr
naver:charset=euc-kr
daum:charset=euc-kr
nate:charset=euc-kr
google:charset=UTF-8
msn:charset=ks_c_5601-1987

Quote:
그리고 인터넷 익스플로러의 주소창에 한글로 집어넣으면(넷피아같은 플러그인이 설치되어 있지 않은 경우에)
UTF-8로 인코딩한 후 그걸 다시 urlencode 한 결과로 검색합니다.

인터넷 익스플로러의 주소창에 검색어를 입력한것이 아니고, 검색사이트의 검색어 입력폼에 입력한 결과였습니다.