연구 주제: 키보드로 바이너리 데이터를 입력하는 제일 효율적인 방법은 무엇일까요?

cleansugar의 이미지

컴퓨터에 컴파일러가 없을 때 키보드로 컴파일러 프로그램을 입력해서 컴파일러를 만들어내는 방법을 생각하다가

http://blog.aaidee.com/57 참조

재밌는 생각이 났었습니다.

바이너리 데이터를 수작업으로 복사해야 한다면 최적의 방법은 무엇일까 하는 것입니다.

즉, 어떤 짧은 프로그램이나 zip파일 같은 데이터가 있을 때 그걸 키보드로 입력할 때 최적화하는 방법입니다.

전달 매체는 키보드, 필기, 그림, 음성, 소리, 빛, 종이, 금속, 사진 등이 있을 수 있습니다.

일단 키보드로 한정하죠.

나토 음성문자나 통화표, 1,2차원 바코드, 문자인식도 참조하세요.
http://ko.wikipedia.org/wiki/NATO_%EC%9D%8C%EC%84%B1_%EB%AC%B8%EC%9E%90

http://ko.wikipedia.org/wiki/%ED%86%B5%ED%99%94%ED%91%9C

파일은 바이트의 배열로 되어 있습니다.

HEX 코드로 보면 256비트가 16진수 나렬로 되어있는데 키보드로 입력할 때는 F 이상 값도 입력해야 더 효율적이겠죠.

그렇다고 모든 유니코드를 입력하는 건 어렵고 키보드에 나와있는 것만 입력해야 할 겁니다.

그리고 또 중요한 것이 무의미한 난수같은 것은 입력시 오타가 생길 가능성이 많다는 겁니다.

이 점도 해결해야 됩니다.

입력시 자연 언어를 이용할 수도 있을텐데요, 각 언어가 전달하는 정보량을 정보 엔트로피라고 부르는 걸로 알고 있는데,

중국어가 제일 높다는 걸로 얼핏 기억합니다.

그런데 중국어는 문자 입력시 시간이 오래 걸립니다.

한국어는 세벌식이나 속기용 자판이 빠르죠.

입력 방식의 속도와 오타율도 중요하고요.

입력 전 문자열을 인식할 때의 오류를 줄이는 기술도 필요합니다.

체크섬같은 걸 이용하는 거죠.

이런 걸 모두 감안해서 최적의 전달법을 연구해볼만한 가치가 있다고 생각합니다.

이미 빅브라더같은 누군가는 연구했을법도 하고요.

여러분 의견은 어떠신가요?

석사분들 논문 거리로도 괜찮을 것 같습니다.

전산학 뿐 아니라 HCI나 논리학, 기호학 등에서도 인간과 컴퓨터간의 정보 전달 효율을 높이는 법에 관심이 많은 걸로 알고 있습니다.

이와 관련해 제가 대충 생각한 걸 특허낼 수 있을까 알아봣는데 부정적이었습니다만요...

cleansugar의 이미지

신문기사 제목을 몇 자까지 줄일 수 있을까요?

네이버 뉴스에서 최근 레이아웃이 바뀌었는데 기사를 줄이는 모습이 놀랍습니다.

인기검색어 일간 급상승 검색어

최장이 레알마드리드디나모자그... 11자

핫 토픽 키워드

1 일본식 이름 짓기 NEW
2 헐크 개미 탄생
3 김경진 집 공개 NEW
4 남극해 한국어선 화재 NEW
5 두산 이규환 사망
6 학교폭력 신고전화 ... NEW
7 주지훈 하차 이유
8 아이유 감딸기 빙의 NEW
9 박희태 전 비서관 ... NEW
10 엄정화 최진실 그리움 NEW

11자

가장 많이 본 뉴스

"두산 경쟁자, 넥센 쪽.."
최 희 "여자 아나운서라.."
최희섭, 넥센에 얼마나 도움...
긱스 동생 "형은 벌레"
태국 기자 "한국전이 1승 기...
최희섭 마음고생 1년
최희 아나운서 폭행시비
투수 '삼성 1군' 하늘의 별...

16글자인 듯

첫 화면의 뉴스캐스트

의장직을 던질 사나이 박희태 검사가 그립다 데일리안
"아이패드3, 3월 출시…아이폰5 2분기에나" 한국경제TV

'北공기부양정 킬러' 강력한 헬기를… 서울경제
Looming S&P downgrades hits euro zone 로이터
김문수에 “경기도민 김미화입니다…”경향신문
에드워드 권은 ‘짝퉁 셰프’다한겨레
추위 떨던 고양이, 車밑에 숨었다가 ‘충격’파이낸셜뉴스
모두가 노스페이스를 입을 수는 없다 미디어오늘
IPhone Sales Curtailed in China WSJ Asia

한글로 25글자입니다.

중국어는 더 적겠죠.

참고: 책은 얇아야한다.
http://kldp.org/node/102982

재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.

아이디의 아이디어 무한도전
http://blog.aaidee.com

귀태닷컴
http://www.gwitae.com

snowall의 이미지

http://snowall.tistory.com/421

몇년 전에 비슷한 생각을 했었습니다.

생각만 했었네요...-_-

피할 수 있을때 즐겨라! http://melotopia.net/b

cleansugar의 이미지

Estimating and Comparing Entropy across Written Natural Languages Using PPM Compression Frederic H. Behr, Jr.* Victoria Fossum† Michael Mitzenmacher
http://www.liafa.jussieu.fr/~dxiao/docs/entropy.pdf

제가 위에서 언급한 논문입니다.

언어별로 성경 압축해서 비교한 겁니다.

참고하시면 좋겠네요.

재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.

아이디의 아이디어 무한도전
http://blog.aaidee.com

귀태닷컴
http://www.gwitae.com

cleansugar의 이미지

결론은 PPMZ알고리듬으로 성경을 압축하면
영 1
서 0.992
불 0.991
중 0.941
한 0.970
아랍 1.09
일 1.206
러 0.997

BZIP2 성경 압축시

영 1
서 1.006
불 1.026
중 0.899
한 0.941
아랍 1.090
일 1.170
러 1.002

gzip으로 성경 압축시

영 1
서 0.994
불 1.018
중 0.780
한 0.907
아랍 1.116
일 1.162
러 0.946

입니다.

한국어가 중국어보다 배우기도 쉬운데 압축률도 2위니까 괜찮은 편이라고 봐야 하는 건가요?

재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.

아이디의 아이디어 무한도전
http://blog.aaidee.com

귀태닷컴
http://www.gwitae.com

cleansugar의 이미지

이 실험을 재현하려고 할 때, 압축파일의 헤더를 떼고 내용만 크기를 재려면 어떻게 해야되는지 아시는 분 알려주세요.

재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.

아이디의 아이디어 무한도전
http://blog.aaidee.com

귀태닷컴
http://www.gwitae.com

cleansugar의 이미지

그리고 중국어는 현재 키보드 입력 시간까지 감안하면 한국어 입력 속도가 더 빠를 수도 있습니다.

재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.

아이디의 아이디어 무한도전
http://blog.aaidee.com

귀태닷컴
http://www.gwitae.com

cleansugar의 이미지

한글의 형태적 특성을 이용한 한글 문서 압축 기법에 관한 연구
http://academic.naver.com/view.nhn?doc_id=10588717&dir_id=0&field=0&gk_adt=0&sort=0&qvt=1&query=%ED%95%9C%EA%B5%AD%EC%96%B4%20%EC%95%95%EC%B6%95&gk_qvt=0&page=1&library=72

한국어의 특성에 맞는 압축 알고리듬도 연구가 되어 있겠죠.

각 언어별로 최소 압축 가능한 알고리듬으로도 벤치마킹해본 논문좀 누가 써주세요.

아니면 요즘 프로그래밍 언어 벤치마킹 게임 사이트처럼 공개적으로 누구나 참여해서 각 자연언어의 효율을 비교하는 장을 마련해보면 재밌을 겁니다.

재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.

아이디의 아이디어 무한도전
http://blog.aaidee.com

귀태닷컴
http://www.gwitae.com

cleansugar의 이미지

한글의 형태적 특성을 이용한 한글 문서 압축 기법에 관한 연구
http://dspace.inha.ac.kr/bitstream?item_id=8867&filePath=/pdfupload/8867.pdf

재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.

아이디의 아이디어 무한도전
http://blog.aaidee.com

귀태닷컴
http://www.gwitae.com

cleansugar의 이미지

참고:

트위터 140자 공간에 이미지 구겨넣기 경진대회
http://kldp.org/node/135442

재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.

아이디의 아이디어 무한도전
http://blog.aaidee.com

귀태닷컴
http://www.gwitae.com

세벌의 이미지

세벌식 참 좋은데... --

Anti-Lock의 이미지

어느정도 효율적인 방법으로는

원본을 압축하고(체크섬 포함), base64로 인코딩한 결과물.. 과 같은 것 아닐까요?
그것을 적당히 4~6자 정도 그룹을 지어서 빈칸으로 구분해 놓으면 보기에도 좋을것 같네요.
ascii85 인코딩은 타이핑 복잡도가 증가해서 입력속도가 느려지는 단점이 예상되네요.

그런데 도중에 잘못 입력하면 어디부분을 잘못 입력했는지 알기 어려우니 문제인데...
이럴땐 S-record 같은게 나아보이기도 하네요..