URI/IRI에 따른 웹 주소의 % 인코딩 문제
글쓴이: noname_nobody / 작성시간: 목, 2005/12/29 - 7:48오후
rfc3986에서 URI는 아래와 같이 정의 되어 있습니다.
http//www.ietf.org/rfc/rfc3986.txt
그런데 지금 시대가 시대이니만큼, IRI도 검토되고 있고 인터넷 도메인 주소도 영문 체계 뿐 아니라 다국어 체계가 도입될 것이라고 들었습니다. 올해 1월에 IRI가 RFC 문서로,
http//www.ietf.org/rfc/rfc3987.txt
그리고 W3C에서도 IRI에 대해 언급하고 있습니다.
http//www.w3.org/International/O-URL-and-ident.html
문제는 % 인코딩입니다. 일반적으로 URI에는 RFC 문서에 정의 되어 있는대로 그냥 통과 되어도 되는 문자열 이외에는 반드시 % 인코딩을 하도록 되어 있습니다.
그런데 IRI를 따르면 한글 문자와 같이 ALPHA 문자가 아닌 것도 그대로 써도 되는지요? del.icio.us 북마크 서비스를 써보신 분은 알겠지만, 사이트 전체가 UTF-8 인코딩을 쓰면서 % 인코딩을 하지 않고 주소 그대로 기록하고 보냅니다. 이게 현재 마련된 표준안에서 맞는 형태인지 궁금합니다.
Forums:
Re: URI/IRI에 따른 웹 주소의 % 인코딩 문제
IRI는 아직 별로 볼 필요가 없는 표준이며, 쓰게 된다 하여도 사실상 URI에서 유니코드 문자를 다룰 때 사용하는 인코딩을 utf-8로 정한 거나 마찬가지입니다. (즉 "가"는 URI에서 utf-8 인코딩 쓸 때와 마찬가지로 path 부분에서는 "%EA%B0%80"로 써야 합니다.) 게다가 현재 URI를 쓴다고 되어 있는 표준에서는 IRI를 그대로 쓸 수 없으며 URI로 변환 과정을 거쳐야 합니다. -_-;;
그리고 del.icio.us의 경우 (만약 IRI라면) 그렇게 하는 것이 맞습니다. 문서에서는 처음에 기술된 IRI로부터 UCS sequence를 얻어 내는 과정이 적혀 있는데, 인코딩이 utf-8이거나 utf-16이면 normalization을 하지 않고 그대로 UCS로 변환하도록 되어 있습니다. (즉 쓰여진 그대로 utf-8로 인코딩된 것으로 인식됩니다.) IRI가 아니라 URI의 경우 어떻게 되는지는 모르겠네요.
== 조금 있다가 추가 ==
URI의 경우 ASCII 안에 존재하는 문자만 가능합니다. HTML에서 따로 URI의 extension 등을 만든 게 아니므로 HTML에서 저런 식으로 URI를 쓰는 건 맞지 않습니다. 단, HTML 스펙에서는 저런 경우의 처리 방법으로 utf-8로 가정하고 인코드할 것을 권장하고 있긴 합니다.
- 토끼군
답변 감사합니다.딜리셔스가 야후에 인수되고 난 이후에 바뀐건지, 언젠
답변 감사합니다.
딜리셔스가 야후에 인수되고 난 이후에 바뀐건지, 언젠가부터 URI에도 인코딩을 하더군요. 이전에는 태그명이 한글로 쓰여져 있을 때 그 링크의 주소도 인코딩 없이 그대로 링크 되어 있었습니다. 그런데 지금은 UTF-8 인코딩된 문자로 링크 되어 있군요. 이게 맞는 방식인가 보네요.
개인적으로 주소창에 한글이 그대로 나온다는 점이 매력적이었는데.. 아직까진 이 방식이 맞지 않다면 어쩔 수 없군요. 허나 %aa.... 된 주소창은 역시 보기 괴로운 건 사실입니다. 어서 빨리 주소창에도 한글 링크 그대로 쓸 수 있는 날이 오기를..
댓글 달기