파일시스템은 UTF8 텍스트 파일 내용은 EUC-KR로 쓰려면?
대부분 USB드라이브는 vfat (혹은 FAT32) 파일시스템을 사용하는데요, vfat 은 내부적으로 파일명이나 디렉토리 이름을 유니코드로 쓰는 것 같습니다. 그래서 윈도우즈나 맥에서는 한글파일명이 아무 문제가 없는데, 지금 EUC-KR 한글 로케일을 사용하고 있는 리눅스에다 파일 시스템을 마운트할 때 좀 문제가 되더군요. 컹커러에서 USB 드라이브를 인식할 때 한글명 디렉토리나 파일은 컹커러에서 브라우징이 되지를 않습니다. remote charset 을 바꿔 보려고 했지만 컹커러가 뻗어버리더군요 -_-;; 그리고 sftp 라든지 다른 여러가지 애플리케이션을 이용할 때도 EUC-KR 파일시스템이 좀 불편해질 때가 있습니다. 이제 정말로 UTF8 로케일이 한글 사용자에게도 대세가 되는 때가 다가오고 있는 것 같습니다. 하지만 여전히 텍스트 파일은 EUC-KR로 된 것으로 편집하고 싶습니다. 한글 윈도우즈라든가 한텀을 아직도 쓰고 있고 해서 말이죠.
이런 이유로 파일시스템을, 그러니까 시스템 로케일을 UTF8로 바꾸고 싶은데요, 몇 가지 의문점 혹은 걱정되는 점이 있습니다.
1. 기존 파일시스템 migration 은 대략 어떻게 하면 좋을까요?
웬만하면 ascii 아닌 문자를 파일명으로 쓰질 않아서 별 문제는 없습니다만,
윈도우즈 홈디렉토리로 마운트 해서 쓰는 samba 파티션에는 한글 이름 디렉토리나 파일들이 좀 있습니다.
2. 파일시스템은 UTF8로 텍스트 파일 내용은 EUC-KR로 쓸 때 유의할 점은?
일단 그냥 텍스트 파일 편집하는 것이야 터미널이나 에디터 설정만 따로 하면 될테지만,
웹서버나 위키 같은 것이 좀 걱정이 됩니다. 특히 아파치 설정을 어떻게 해야 할지,
경로명은 UTF8로 찾고 뿌릴 내용은 기본적으로 EUC-KR인데 어떻게 설정하는 방법이 있나요?
3. EUC-KR 기반의 우리니라 사이트들 포탈에서 파일을 내려받거나 올려보낼 때 혹시 문제나 불편한 점은 없나요?
이것 말고 발생할 또 다른 문제점은 없는지 (각종 응용프로그램이나 kde 설정파일이라든지) 혹시 시스템 로케일을 EUC-KR로 쓰다가 UTF8로 변환해 보신 분들 있으면 답변 부탁드립니다.
임예진 팬클럽 ♡예진아씨♡ http://cafe.daum.net/imyejin
인용: 1. 기존
윈도용 파일시스템(vfat, ntfs, cifs/smb)는 utf8 환경에서 사용하려면 utf8옵션만 붙여주면 됩니다. 위 파일시스템은 내부적으로 파일이름을 유니코드로 저장하기 때문에 리눅스 커널내의 vfs단에서 파일이름을 변환시켜 줍니다.
하지만 기존에 리눅스에서 쓰던 ext[23], reiserfs, xfs등은 내부적으로 파일이름 변환을 하지 않습니다. 우분투의 경우에는 feisty에서 파일이름을 utf8로 바꿔주는 utf8-migration-tools를 제공했던 것으로 알고 있습니다.
파일시스템의 파일이름과 파일내용은 전혀 별개 문제입니다.
제가 포탈 문화자체를 싫어해서 잘 써보지는 않았지면 특별히 문제를 발생한 적은 못봤습니다. 여간해서는 웹 문서의 헤더에 정의된 문자셋을 이용해서 변환하기 때문에 큰 문제는 안생길 것 같습니다.
그놈이나 kde환경의 경우에는 오래전부터 유니코드 기반으로 운영되어졌기 때문에 별 문제는 없습니다.
하지만 문제가 되는 분야가 있긴 한데요. 문자셋이 정의되지 않은 데이터의 처리입니다.
그나마 text의 경우에는 많이들 쓰이니 덜합니다만 아래의 데이터 처리는 아직 요원합니다.
id3v1, 그리고 잘못된 데이터가 들어간 id3v2
id3v1은 ascii만 그리고 id3v2는 ascii, utf16, utf8만 허용합니다만, 대부분의 윈도용 mp3 태깅 프로그램이 로컬 인코딩으로 태깅을 해버려서 무척 난감합니다.
man 페이지
원래 man page에 문자열인코딩에 대한 정보가 없습니다. 그래서 utf8환경에서는 다 깨져 나옵니다. 전 그냥 한글 맨페이지는 설치하지 않아버립니다. (업데이트 되지 않은 정보도 많아서 차라리 영문이 편할때가 많습니다.)
인코딩 정보가 없는 각종 네트워크 프로토콜: ex:ftp,cddb
요샌 lftp 또는 파일질라 덕분에 그나마 편해지긴 했습니다만, 아직은 좀 거림칙 합니다.
musicbrain이나 last.fm같은 커뮤니티 기반의 database덕분에 cddb가 점점 자리를 설 곳이 없어져보이긴 합니다만, 기존의 막대한 db를 쓸 수 없다는 게 아쉽습니다.
----
Do not feed troll!
----
데스크탑 프로그래머를 꿈꾸는 임베디드 삽질러
shell script 돌릴 때
shell script 돌릴 때 가끔 문제가 생길 소지를 겪어보았습니다.
shell 의 LANG 은 ko_KR.utf8 , 쓰는 에디터가 vi 에 fe euc-kr 로 해두었다가 낭패를 보았죠.
예를 들어 euc-kr 로 일괄적으로 이미지 파일을 정리해서 쉘로 입력을 안받고 스크립트 안의 문자열로 ( 물론 한글 )
주르륵 돌리다가 그만 파일명이 모조리 euc-kr 의 코드가 되어서 고생했었습니다.
지금은 제가 리눅스를 서버용도 이외에 거의 쓰지 않기에 자세히 말씀드리기는 힘들지만, 특수한 몇몇 ( 저같은 삽질 ) 케이스만 빼고는 특별히 문제가 없었습니다.
Neogeo - Future is Now.
Neogeo - Future is Now.
옵션에 utf8을 쓰시면
옵션에 utf8을 쓰시면 파일명은 알아서 처리 될 것이고 GNOME에서는 UTF-8로 데이터 처리를 하니 당연히 안 보이셧을 걸로 생각 되는군요 GNOME Terminal에선 EUC-KR을 썼었는데 양쪽에서 다 잘 보기 위해선 터미널과 기본 로케일 설정을 유니코드로 바꿔야 했죠.
웹서버는 큰 문제가 없을 걸로 생각 됩니다.(실제로 크게 문제는 없었습니다.)
근데 쓰고 보니 다 다른 분들이 하신 이야기군요.
----
Lee Yeosong(이여송 사도요한)
E-Mail: yeosong@gmail.com
HomePage: http://lys.lecl.net:88/
Wiki(Read-Only): http://lys.lecl.net:88/wiki/
Blog: http://lys.lecl.net:88/blog
MSN: ysnglee2000@hotmail.com
----
절이 싫으면 중이 떠나는 것이 아니라, 절이 싫으면 중이 절을 부숴야 한다.
때때
사람천사
댓글 달기