ppt 와 hwp 등의 파일 포멧 자료 있나요?

FruitsCandy의 이미지

화창한 토요일입니다.
프로그래밍 게시판에 올리기에 성격이 좀 안 맞는거 같아 자유게시판에 올립니다.

ppt, xls , doc , hwp 등의 통합 뷰어 비슷한 걸 만들어야 될지도? 모릅니다.
지금 자료 조사중인데요. 그걸 다 지원하는 걸 만들다니..더위먹었냐고요?
예! 제가 생각해도 미친짓 같습니다. 만든다해도 상당히 오래 걸릴 것같은데..
일단 위에서 까라니깐... 까야죠 -_-

오픈 오피스 소스 봤는데.. 일단 분량자체가 감당이 안되고 제 능력으로는
이걸 분석하는것 도 역부족입니다.
구글링과 msdn 을 후비고 다녀도 파일포멧 분석에 대한 자료는 못찾았네요.
검색능력이 딸려서 도움을 청합니다.

ppt, xls , doc , hwp 파일포맷과 관련된 페이지링크나 검색을 잘 할수 있는
팁도 대환영입니다. :D
그럼 다들 좋은 하루 되시길...

ps 사전조사 빡시게 해서 "구현불가"라고 입증할 수 있으면 좋겠군요 ㅎㅎ

saxboy의 이미지

리눅스에서라면 굉장히 어렵겠고, 윈도우에서라면 훨씬 쉽겠지요. :-)

포맷분석기만 따로 판매하는 곳은 잘 찾아보시면 있기는 하지만, 대부분 검색을 목적으로 텍스트 추출 정도까지만을 제공하기 때문에, 그다지 유용하지는 않을 것 같습니다. 네개의 포맷을 분석해서 화면에 렌더링 시키는 수준이라면... 개발팀이 몇분이신지는 모르겠지만... 많이 힘들겠군요. 포맷을 얻는 것도 거의 불가능하리라 생각하지만, 포맷을 얻어도 아마 문서를 보신다면 의욕이 많이 사라집니다. PDF 스펙을 한번 슬쩍 눈으로 살펴보시면 좀 더 확실히 몸에 와닿습니다.

말씀드렸지만, 윈도우에서라면 콤포넌트를 그냥 갖다가 붙여서 좀 더 쉽게 만들 수 있지 않을까 생각합니다.

segfault의 이미지

HWP 한컴에서 파일포맷을 공개하지 않는 걸로 알고 있습니다.

직접 파일 포맷을 분석하기에는 너무 포맷이 복잡하게 되어 있구요.

한가지 방법이 있다면 그건 디스어셈블...

FruitsCandy의 이미지

물론 플랫폼은 윈도우즈이구요.

여기 저기 찾아다녀도 자료 찾기가 힘드네요 .

그리고 디스어셈블 ... 누군가 디스어셈블하는 작업을 본적이 있는데요

정말 죽을 맛이더군요.

삽질 -> 좌절 -> 삽질 -> 다시 좌절 ...

위 작업의 연속이더라구요 :P

아지랑이류 초환상 공콤 화랑... 포기하다.. T.T

mykldp의 이미지

제가 알기로는 모두 공개되어 있지 않습니다..오픈 오피스에서 ppt 나 xls 를 읽을 수 있는 것은 그 쪽 개발자들이 삽질 끝에...파일 포맷을 스스로 분석한 결과입니다. 하지만 아직 불완전합니다.

엑셀 포맷의 경우에는 오픈 오피스 홈페이지에서 파일 포맷 문서를 구하실 수 있습니다. 수시로(엑셀 포맷에 대해 좀 더 알아낼 때마다...;) ) 내용이 업데이트되고 있습니다. 만약에 자바로 작업을 하셔도 된다면 자카르타 프로젝트 중에 엑셀 포맷을 읽을 수 있는 라이브러리를 개발하는 프로젝트가 있습니다. 제가 알기로는 오픈 오피스에서 공개한 엑셀 파일 포맷 문서를 기준으로 개발되고 있습니다. BSD 라이센스이니 회사에서 사용하셔도 관계 없을겁니다. C 언어의 경우에는 gnumeric 의 일부로 개발된 라이브러리가 있었던 것으로 기억합니다...(확실치는 않습니다.) 리눅스 기반이고 GPL 이었던 것으로 기억합니다. 외국 회사중에 xls 를 읽고 쓸 수 있는 C/C++ 라이브러리를 판매하는 회사도 있습니다.

예전에 회사 일로 윈도에서 엑셀 파일을 읽어 처리하는 프로그램을 짠 적이 있습니다. 엑셀이 설치되어 있지 않아도 프로그램이 돌아가야했기 때문에 엑셀 파일을 직접 읽어서 처리해야 했습니다. 서식, 표, 그래프, 이미지 관련된 것은 전부 무시하고 문자, 숫자, 랜덤하게 결정되는 경우를 제외한 수식을 읽어 처리할 수 있도록 짰습니다. 제 경우에는 C++/비오픈소스/적은 비용 으로 작업을 해야해서 말씀드린 라이브러리들을 사용하지 못하고 어쩔 수 없이 오픈 오피스의 문서를 가지고 손수 작성해 사용할 수 밖에 없었습니다.

위에 어떤분도 말씀하셨지만.. 그냥 텍스트나 숫자를 읽는 수준이 아니라 화면에 보기 좋게 렌더링해야 하는 수준이라면 정말 쉽지 않습니다.

ppt 나 doc 에 대해서는 자세히 모르겠습니다. 조금이라도 도움이 되었기를..

charsyam의 이미지

어느 정도의 뷰어를 원하시는지는 잘 모르겠지만,

PDF 는 파일이 공개되어 있습니다.
Excel 도 OpenOffice에 공개되어 있죠.

PPT, Excel, Doc 정도는 파일 포맷 자체는 아니지만, Text 추출 정도는 뒤져보시면 쉽게 하실 수 있습니다.

HWP 는 포맷이 비공개 입니다. 한글에서 현재 HWP 포맷을 판매하는걸로압니다.

만약 제대로 된 뷰어를 생각하신다면, 상당히 꽤 많은 인력과 비용을 투자하셔야
할껍니다. 쉬운 일은 아니랍니다. 고운 하루되세요.

=========================
CharSyam ^^ --- 고운 하루
=========================

jeongkyu의 이미지

http://packages.debian.org/unstable/utils/ppthtml
http://chicago.sourceforge.net/xlhtml/
http://wvware.sourceforge.net/

HWP 97은 오픈오피스 소스에 미지에서 제공한 필터가 있고, HWP 2002에서 텍스트는 파일 일부분에 따로 보관하는것 같은데 Abiword add-in 소스를 참고하시면 됩니다.

Jeongkyu Kim
OpenOffice.org Korean community lead

Official website http://ko.openoffice.org
Community forum http://oooko.net/
Personal blog http://oooko.net/gomme

FruitsCandy의 이미지

와!! 답변주신 분들 !!! 이렇게 좋은 정보를 많이도 주시다니 감사드립니다. :D

그리고 말씀주신 것처럼 단순 텍스트 추출이 아니기 때문에 똑같이 렌더링해야 하는 작업이 상당히 힘들것 같습니다.
작업인원 2명에 1차기간완료 기간이 2달이구요, 최종 완료기간은 2005년 초인데... 1차기간까지 이미지가 깨져나오더라도 어느정도 알아볼수 있는 그런 수준을 요구합니다. 그 얘기를 듣고 있자니 정말 덥더군요. 안그래도 더워 죽겠는데 ㅎㅎ

그럼 다들 열대야 잘 이겨내기실 바라며, 다시 또 감사드려요.
쓰레드 닫으려는 멘트성 글이 아니오니 좋은 팁 있으시면 올려주셔도 언제든 대환영입니다. :D

아지랑이류 초환상 공콤 화랑... 포기하다.. T.T

saxboy의 이미지

스레드를 보다가 갑자기 동해서 openoffice의 hwp97 필터와 abiword의 hancom impexp plugin 소스를 조금 읽어보았습니다. 워낙 큰 패키지들이니 소스가 어디에 있는지 찾는것도 일이군요.

일단 OO의 hwp97 필터는 미지에서 제공한 것이 확실하군요. 미지의 리눅스용 hwpviewer (for hwp97 only) 에서 렌더링부분을 제외하고 모두 포함되어 있는 것 같습니다.
하지만 abiword의 한컴 플러그인은 조금 문제가 있군요. 이런 방식으로는 텍스트도 제대로 얻어낼 수 없습니다. 아마도 abiword 개발자의 친구가 한컴에 있으면서 메신저로 잠깐 잡담한 내용이 아니었나 싶을 정도군요.

한컴에서 OO 플러그인을 제공해주면 좋을텐데... 같은 순진한 이야기를 하려는 것은 아니지만, 역시 아쉬운 것은 어쩔 수 없군요. 요즘에는 리눅스용 한컴오피스 트라이얼을 다운받을 곳도 없어진 것 같던데...

에... 역시 결론적으로 hwp는 기피대상입니다. 으흐흐.

다즐링의 이미지

HWP97은 아마 프로그램을 깔면 안에 포맷이 있던것으로 기억을합니다.

------------------------------------------------------------------------------------------------
Life is in 다즐링

죠커의 이미지

정말 들어있나요?

들어있어도 집에 3.5 인치 디스켓을 뒤져봐야할것 같네요.

왠지 그 때 기억에 3-4번 설치하면 꼭 디스켓 중 하나가 배드 섹터가 생겼던 것 같습니다.

97까지 정품이 3.5인치 플로피 디스켓이 맞나요?

ihavnoid의 이미지

CN wrote:
정말 들어있나요?

들어있어도 집에 3.5 인치 디스켓을 뒤져봐야할것 같네요.

왠지 그 때 기억에 3-4번 설치하면 꼭 디스켓 중 하나가 배드 섹터가 생겼던 것 같습니다.

97까지 정품이 3.5인치 플로피 디스켓이 맞나요?

저는 CD로 기억하는데요.
글구 한글 97 CD 안에 포멧에 대한 문서를 본 기억이 없는데요.

한글97 포멧 역시 비공개로 알고 있습니다.

예전에 2000년쯤에 저희 동아리에서 한글97포멧 문서를 처리하는 뭘 만들려고 하다가, 비상업용으로 쓰는 조건으로 문서를 받아온 기억이 있습니다. 그때 동아리 선배 한분이 한컴에 직접 가서 '거기서 인쇄해 준' 200페이지 근처의 문서꾸러미를 들고 왔습니다. 파일을 직접 달라고 했더니, 인쇄본만 제공한다 하더군요. -__-;

한번 살짝 훑어봤었습니다. 테이블 천지더군요. -_-;

Consider the ravens: for they neither sow nor reap; which neither have storehouse nor barn; and God feedeth them: how much more are ye better than the fowls?
Luke 12:24

fibonacci의 이미지

hwp 포맷자료는 본적이 없습니다. 분명 한컴이나 관련 기관에서 제공하기 전까지는 얻을수 없을것 같습니다.

No Pain, No Gain.

유겸애비의 이미지

Necromancer의 이미지

97 정품 갖고 있는데(아카데미 그대로...) 시디입니다. 용량도 디스켓으로 하면
몇백장 분량이죠.
이전에 3.0b 윈도용 아래아한글 시디도 본 적 있었고요.

486에 도스쓰던 시절에는 2.5 정품 썼었는데 이게 5.25인치 디스켓 열장 내외였던가
디스켓으로 나온건 아마 3.0까지였을겁니다.

그리고 hwp 파일포맷 문서가 프로그램 안에 있다는건 금시초문인데요.

Written By the Black Knight of Destruction

warpdory의 이미지

HWP97 에 들어 있던 건 HWPML 에 대한 규약입니다.

예제문서로 들어 있죠.
hwp 파일 포맷에 대한 문서는 아닙니다.


---------
귓가에 햇살을 받으며 석양까지 행복한 여행을...
웃으며 떠나갔던 것처럼 미소를 띠고 돌아와 마침내 평안하기를...
- 엘프의 인사, 드래곤 라자, 이영도

즐겁게 놀아보자.