OS가 윈도우를 사용하고 있습니다. 파일 문서 형식에 대해서 궁금합니다.

seojh1431의 이미지

확장자가 txt, xls, xlsx, ppt, rtf(워드패드), show, cell은 사람이 볼 수 있는 아스키코드 형식으로 되어 있는 것으로 알고 있습니다.

그럼 아스키코드로 되어 있다고 어디서 확인할 수 있나요?

그리고 그림파일 jpg, bmp 같은것은 어떤 문서로 이루어져 있는지 궁금합니다.

익명 사용자의 이미지

1. "아스키코드 형식"이라는 게 대체 뭡니까?
아스키 코드는 텍스트를 인코딩하는 방식이지, 파일 문서 형식을 지정하는 게 아닙니다.
txt처럼 통짜 텍스트만으로 이루어져 있는 파일이라면 관련이 없지는 않다고 할 수는 있지만, 일단 저희가 주로 쓰는 텍스트 인코딩은 대개 ASCII의 superset들이죠.

xlsx, pptx 같은 파일 포맷은 요즘 MS가 Office Open XML File Format라는 걸 쓰고 있고, XML은 텍스트 기반이죠.
아래 두 링크 참조하세요.

https://msdn.microsoft.com/ko-kr/library/dd922181(v=office.12).aspx

https://msdn.microsoft.com/en-us/library/dd926741(v=office.12).aspx

링크는 다르지만, 두 링크 모두 "Click here to download a zip file with all of the PDF files."를 누르면 pptx, xlsx, docx 등에 대한 Office Open XML File Format을 다루고 있습니다.

rtf는 소위 서식 있는 텍스트 포맷인데, 뭐 여기도 텍스트가 없잖아 있군요.

https://www.microsoft.com/en-us/download/details.aspx?id=10725

show, cell에 대해서는 잘 모르겠습니다. 어디서 쓰는 확장자들이죠?

2.그림 파일의 포맷은 뭐 다양합니다만...

윈도우즈에서 쓰는 bmp는 제법 단순한 편입니다. 사실 뭐 단어 그대로 비트맵이니까요. 조금만 익숙해지면 헥스에디터 가지고 직접 뜯어볼 수도 있습니다.

https://msdn.microsoft.com/en-us/library/windows/desktop/dd183391(v=vs.85).aspx

jpg는 얘기가 많이 달라집니다. 일단 국제 표준 ISO/IEC 10918이라 표준을 돈주고 구해야 하는데, 이건 사소한 문제죠. 돈만 있으면 되니까.
듣기로 이 표준이 썩 읽기 좋은 문서는 아니라고 합니다. 게다가 약간의 신호처리 지식(이산 코사인 변환 등)도 필요하고요.
정말 이 표준에 관심있어서 꼭 이해하고 말겠다, 하는 의지가 있다면 결코 정복 못할 그런 물건은 아니라지만 저는 그렇게까지 관심 없습니다.

링크 몇 개 드릴 수는 있습니다만 그 이상의 도움은 못 드릴 것 같네요.

https://jpeg.org/jpeg/index.html
http://www.springer.com/kr/book/9780442012724
http://www.iso.org/iso/home/search.htm?qt=10918&sort=rel&type=simple&published=on

chanik의 이미지

텍스트 파일과 바이너리 파일의 구분을 말씀하시는 것 같네요.
둘을 구분하는 엄밀한 정의가 있는지는 저도 모릅니다만,
제가 개인적으로 생각하는 구분법을 간단히 적자면,
텍스트 파일은 보통의 텍스트 에디터를 통해 지장없이 읽어들여 보여줄 수 있는 파일을 가리키고,
바이너리 파일은 그것이 불가능한 파일을 가리킨다고 여깁니다.

텍스트 파일은 반드시 아스키 코드로만 이뤄져 있을 필요는 없습니다.
아스키 코드는 로마자, 즉 영어 알파벳 정도만을 담고 있으므로 비(非)로마자 글을 표현할 길이 없죠.
우리의 한글을 포함하여 한자, 일본글자, 아랍어 글자는 물론,
심지어 그 뿌리가 로마자와 크게 다르지 않을 것 같은 그리스 문자, 러시아 문자 등도
아스키 코드로는 표현할 수 없습니다.

따라서, 아스키 코드상의 문자들로만 만들어진 고전적인 텍스트 파일 뿐 아니라
각국의 독자적인 글자코드 체계(한국의 KSC5601, 중국의 BIG5, 일본의 Shift-JIS 등)로 표현된 파일도 텍스트 파일이고
전 세계 모든 글자를 표현하기 위해 만들어진 유니코드로 표현된 파일도 텍스트 파일입니다.

그러니까 아스키 파일이라고 부르는 것보다는 텍스트 파일이라고 부르는 것이
더 넓고 현실적인 의미를 담는다고 생각합니다.

간혹 텍스트 파일이라고 해도 특정 텍스트 에디터가 그 문자코드를 인식하지 못하는 경우엔
파일을 열어도 내용물이 쓰레기처럼 보이는 경우도 있지만,
그렇다고 그 파일이 텍스트 파일이 아닌 것은 아닙니다.

텍스트 파일이 뭐냐에 대한 생각은 이 정도로 정리해두고
파일의 확장자 별 바이너리/텍스트 구분에 대해 얘기하자면,
각 확장자에 따라 파일저장형식이 정의되어 있는데
그 정의에 따라 텍스트 파일이냐 바이너리 파일이냐가 좌우된다고 봅니다.

- txt, rtf(워드패드) : 텍스트 파일입니다.

- xlsx, pptx, docx :
텍스트 파일인 xml 파일들을 여러 개 모아서 한 파일로 압축해 놓은 형태입니다.
압축된 결과물인 xlsx, pptx, docx 파일 자체는 바이너리 파일입니다만
7-zip 등으로 압축을 풀어놓으면 텍스트 파일들로만 이뤄져 있는 형태입니다.

- xls, ppt, doc : 바이너리 파일입니다.

- show, cell :
한컴오피스의 pptx, xlsx 대응 포맷인 것 같은데,
바이너리 파일로 정의된 것인지 텍스트 파일로 정의된 것인지는 모르겠습니다.
텍스트 에디터에서 열어보고, 7-zip 등으로 압축해제 시도도 해보면
대충 감이 잡힐 지도 모르겠습니다. 그냥 한글과컴퓨터에 물어보셔도 되겠고요.

- jpg, bmp : 바이너리 파일입니다.

확장자별 정보는 http://www.file-extensions.org/ 에 정리되어 있는 것 같습니다.
특히 아래 페이지는 텍스트파일들만 모아놓았네요.

http://www.file-extensions.org/filetype/extension/name/text-files

Pi11ar의 이미지

파일 시그니처에 대해 찾아보시면 아마 답변이 될겁니다.

for 梦想

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.