1. "아스키코드 형식"이라는 게 대체 뭡니까?
아스키 코드는 텍스트를 인코딩하는 방식이지, 파일 문서 형식을 지정하는 게 아닙니다.
txt처럼 통짜 텍스트만으로 이루어져 있는 파일이라면 관련이 없지는 않다고 할 수는 있지만, 일단 저희가 주로 쓰는 텍스트 인코딩은 대개 ASCII의 superset들이죠.
xlsx, pptx 같은 파일 포맷은 요즘 MS가 Office Open XML File Format라는 걸 쓰고 있고, XML은 텍스트 기반이죠.
아래 두 링크 참조하세요.
jpg는 얘기가 많이 달라집니다. 일단 국제 표준 ISO/IEC 10918이라 표준을 돈주고 구해야 하는데, 이건 사소한 문제죠. 돈만 있으면 되니까.
듣기로 이 표준이 썩 읽기 좋은 문서는 아니라고 합니다. 게다가 약간의 신호처리 지식(이산 코사인 변환 등)도 필요하고요.
정말 이 표준에 관심있어서 꼭 이해하고 말겠다, 하는 의지가 있다면 결코 정복 못할 그런 물건은 아니라지만 저는 그렇게까지 관심 없습니다.
텍스트 파일과 바이너리 파일의 구분을 말씀하시는 것 같네요.
둘을 구분하는 엄밀한 정의가 있는지는 저도 모릅니다만,
제가 개인적으로 생각하는 구분법을 간단히 적자면,
텍스트 파일은 보통의 텍스트 에디터를 통해 지장없이 읽어들여 보여줄 수 있는 파일을 가리키고,
바이너리 파일은 그것이 불가능한 파일을 가리킨다고 여깁니다.
텍스트 파일은 반드시 아스키 코드로만 이뤄져 있을 필요는 없습니다.
아스키 코드는 로마자, 즉 영어 알파벳 정도만을 담고 있으므로 비(非)로마자 글을 표현할 길이 없죠.
우리의 한글을 포함하여 한자, 일본글자, 아랍어 글자는 물론,
심지어 그 뿌리가 로마자와 크게 다르지 않을 것 같은 그리스 문자, 러시아 문자 등도
아스키 코드로는 표현할 수 없습니다.
따라서, 아스키 코드상의 문자들로만 만들어진 고전적인 텍스트 파일 뿐 아니라
각국의 독자적인 글자코드 체계(한국의 KSC5601, 중국의 BIG5, 일본의 Shift-JIS 등)로 표현된 파일도 텍스트 파일이고
전 세계 모든 글자를 표현하기 위해 만들어진 유니코드로 표현된 파일도 텍스트 파일입니다.
그러니까 아스키 파일이라고 부르는 것보다는 텍스트 파일이라고 부르는 것이
더 넓고 현실적인 의미를 담는다고 생각합니다.
간혹 텍스트 파일이라고 해도 특정 텍스트 에디터가 그 문자코드를 인식하지 못하는 경우엔
파일을 열어도 내용물이 쓰레기처럼 보이는 경우도 있지만,
그렇다고 그 파일이 텍스트 파일이 아닌 것은 아닙니다.
텍스트 파일이 뭐냐에 대한 생각은 이 정도로 정리해두고
파일의 확장자 별 바이너리/텍스트 구분에 대해 얘기하자면,
각 확장자에 따라 파일저장형식이 정의되어 있는데
그 정의에 따라 텍스트 파일이냐 바이너리 파일이냐가 좌우된다고 봅니다.
- txt, rtf(워드패드) : 텍스트 파일입니다.
- xlsx, pptx, docx :
텍스트 파일인 xml 파일들을 여러 개 모아서 한 파일로 압축해 놓은 형태입니다.
압축된 결과물인 xlsx, pptx, docx 파일 자체는 바이너리 파일입니다만
7-zip 등으로 압축을 풀어놓으면 텍스트 파일들로만 이뤄져 있는 형태입니다.
- xls, ppt, doc : 바이너리 파일입니다.
- show, cell :
한컴오피스의 pptx, xlsx 대응 포맷인 것 같은데,
바이너리 파일로 정의된 것인지 텍스트 파일로 정의된 것인지는 모르겠습니다.
텍스트 에디터에서 열어보고, 7-zip 등으로 압축해제 시도도 해보면
대충 감이 잡힐 지도 모르겠습니다. 그냥 한글과컴퓨터에 물어보셔도 되겠고요.
1. "아스키코드 형식"이라는 게 대체
1. "아스키코드 형식"이라는 게 대체 뭡니까?
아스키 코드는 텍스트를 인코딩하는 방식이지, 파일 문서 형식을 지정하는 게 아닙니다.
txt처럼 통짜 텍스트만으로 이루어져 있는 파일이라면 관련이 없지는 않다고 할 수는 있지만, 일단 저희가 주로 쓰는 텍스트 인코딩은 대개 ASCII의 superset들이죠.
xlsx, pptx 같은 파일 포맷은 요즘 MS가 Office Open XML File Format라는 걸 쓰고 있고, XML은 텍스트 기반이죠.
아래 두 링크 참조하세요.
https://msdn.microsoft.com/ko-kr/library/dd922181(v=office.12).aspx
https://msdn.microsoft.com/en-us/library/dd926741(v=office.12).aspx
링크는 다르지만, 두 링크 모두 "Click here to download a zip file with all of the PDF files."를 누르면 pptx, xlsx, docx 등에 대한 Office Open XML File Format을 다루고 있습니다.
rtf는 소위 서식 있는 텍스트 포맷인데, 뭐 여기도 텍스트가 없잖아 있군요.
https://www.microsoft.com/en-us/download/details.aspx?id=10725
show, cell에 대해서는 잘 모르겠습니다. 어디서 쓰는 확장자들이죠?
2.그림 파일의 포맷은 뭐 다양합니다만...
윈도우즈에서 쓰는 bmp는 제법 단순한 편입니다. 사실 뭐 단어 그대로 비트맵이니까요. 조금만 익숙해지면 헥스에디터 가지고 직접 뜯어볼 수도 있습니다.
https://msdn.microsoft.com/en-us/library/windows/desktop/dd183391(v=vs.85).aspx
jpg는 얘기가 많이 달라집니다. 일단 국제 표준 ISO/IEC 10918이라 표준을 돈주고 구해야 하는데, 이건 사소한 문제죠. 돈만 있으면 되니까.
듣기로 이 표준이 썩 읽기 좋은 문서는 아니라고 합니다. 게다가 약간의 신호처리 지식(이산 코사인 변환 등)도 필요하고요.
정말 이 표준에 관심있어서 꼭 이해하고 말겠다, 하는 의지가 있다면 결코 정복 못할 그런 물건은 아니라지만 저는 그렇게까지 관심 없습니다.
링크 몇 개 드릴 수는 있습니다만 그 이상의 도움은 못 드릴 것 같네요.
https://jpeg.org/jpeg/index.html
http://www.springer.com/kr/book/9780442012724
http://www.iso.org/iso/home/search.htm?qt=10918&sort=rel&type=simple&published=on
텍스트 파일과 바이너리 파일의 구분을 말씀하시는 것
텍스트 파일과 바이너리 파일의 구분을 말씀하시는 것 같네요.
둘을 구분하는 엄밀한 정의가 있는지는 저도 모릅니다만,
제가 개인적으로 생각하는 구분법을 간단히 적자면,
텍스트 파일은 보통의 텍스트 에디터를 통해 지장없이 읽어들여 보여줄 수 있는 파일을 가리키고,
바이너리 파일은 그것이 불가능한 파일을 가리킨다고 여깁니다.
텍스트 파일은 반드시 아스키 코드로만 이뤄져 있을 필요는 없습니다.
아스키 코드는 로마자, 즉 영어 알파벳 정도만을 담고 있으므로 비(非)로마자 글을 표현할 길이 없죠.
우리의 한글을 포함하여 한자, 일본글자, 아랍어 글자는 물론,
심지어 그 뿌리가 로마자와 크게 다르지 않을 것 같은 그리스 문자, 러시아 문자 등도
아스키 코드로는 표현할 수 없습니다.
따라서, 아스키 코드상의 문자들로만 만들어진 고전적인 텍스트 파일 뿐 아니라
각국의 독자적인 글자코드 체계(한국의 KSC5601, 중국의 BIG5, 일본의 Shift-JIS 등)로 표현된 파일도 텍스트 파일이고
전 세계 모든 글자를 표현하기 위해 만들어진 유니코드로 표현된 파일도 텍스트 파일입니다.
그러니까 아스키 파일이라고 부르는 것보다는 텍스트 파일이라고 부르는 것이
더 넓고 현실적인 의미를 담는다고 생각합니다.
간혹 텍스트 파일이라고 해도 특정 텍스트 에디터가 그 문자코드를 인식하지 못하는 경우엔
파일을 열어도 내용물이 쓰레기처럼 보이는 경우도 있지만,
그렇다고 그 파일이 텍스트 파일이 아닌 것은 아닙니다.
텍스트 파일이 뭐냐에 대한 생각은 이 정도로 정리해두고
파일의 확장자 별 바이너리/텍스트 구분에 대해 얘기하자면,
각 확장자에 따라 파일저장형식이 정의되어 있는데
그 정의에 따라 텍스트 파일이냐 바이너리 파일이냐가 좌우된다고 봅니다.
- txt, rtf(워드패드) : 텍스트 파일입니다.
- xlsx, pptx, docx :
텍스트 파일인 xml 파일들을 여러 개 모아서 한 파일로 압축해 놓은 형태입니다.
압축된 결과물인 xlsx, pptx, docx 파일 자체는 바이너리 파일입니다만
7-zip 등으로 압축을 풀어놓으면 텍스트 파일들로만 이뤄져 있는 형태입니다.
- xls, ppt, doc : 바이너리 파일입니다.
- show, cell :
한컴오피스의 pptx, xlsx 대응 포맷인 것 같은데,
바이너리 파일로 정의된 것인지 텍스트 파일로 정의된 것인지는 모르겠습니다.
텍스트 에디터에서 열어보고, 7-zip 등으로 압축해제 시도도 해보면
대충 감이 잡힐 지도 모르겠습니다. 그냥 한글과컴퓨터에 물어보셔도 되겠고요.
- jpg, bmp : 바이너리 파일입니다.
확장자별 정보는 http://www.file-extensions.org/ 에 정리되어 있는 것 같습니다.
특히 아래 페이지는 텍스트파일들만 모아놓았네요.
http://www.file-extensions.org/filetype/extension/name/text-files
질문이 정확히 무엇인지 모르겠지만
파일 시그니처에 대해 찾아보시면 아마 답변이 될겁니다.
for 梦想
댓글 달기