검색을 주로 하고자 할때 구현 방법.

글쓴이: googlejoa / 작성시간: 목, 2005/01/06 - 1:44오후

수백개의 한글 화일이 있습니다.
이 화일들 중에서 필요한 내용이 있는지 주로 검색해보고자 합니다.

이를 위해 가장 유용한 방법이 어떤게 있을까요?

우선 단순하게 생각해 보면.
1. 우선 각각의 한글화일을 html 화일로 만든다.
(이것을 한꺼번에 해 주는 프로그램은 없나요?)
2. html 화일을 db 에 저장한다.
3. 서치기능을 할때 마다 db 를 뒤져 찾아낸다.

db 를 이용한다면 mysql 을 사용하려고 하는데 이경우 그냥 무식하게 저장하면 왠지 효율이 떨어질 것 같은 생각이 드네요.
혹시 이런 경우 db 를 구성하는 방법 및 화일시스템을 그대로 이용하는 그 외의 방법등에 대해서 좀 알려주세요.

그럼.

Forums:

설치 및 활용 QnA

댓글 달기

한글 파일이라는게 아래한글 파일(.hwp같은)을 말하는 것이겠죠?일반

글쓴이: codebank / 작성시간: 목, 2005/01/06 - 5:17오후

한글 파일이라는게 아래한글 파일(.hwp같은)을 말하는 것이겠죠?
일반적으로 한글 파일이라면 .txt같은 파일과 혼돈하기 쉬워서...
응용방법은 두가지 정도가 있겠네요.
일반 text로 바꿔서 DB에 저장한후에 해당되는 파일이름을 알려주는 방식과
html로 바꿔서 DB에 저장한후에 화면으로 출력하는 방식...
무식하게 하는방법말고 다른 방법이 있을지 모르겠네요.
할 수 있다면 각 파일에 대한 분류를 세부적으로 하는것이겠죠.
그렇게 되면 검색항목이 줄어들 수 있으니까요.

HWP파일을 한꺼번에 바꾸어주는 일은 접할 기회가 없어서 잘모르겠네요.

------------------------------
좋은 하루 되세요.

답글

각각의 문서를 색인하고 거기에 대한 역파일을 만들어서 그걸 뒤지시는게 제

글쓴이: charsyam / 작성시간: 목, 2005/01/06 - 5:28오후

각각의 문서를 색인하고 거기에 대한 역파일을 만들어서 그걸 뒤지시는게 제일 빠를것 같습니다만, 실제로 검색엔진이 이런식이죠 고운 하루되세요.

=========================
CharSyam ^^ --- 고운 하루
=========================

답글

[quote="charsyam"]각각의 문서를 색인하고 거기에 대한 역파

글쓴이: googlejoa / 작성시간: 목, 2005/01/06 - 7:00오후

charsyam wrote:

각각의 문서를 색인하고 거기에 대한 역파일을 만들어서 그걸 뒤지시는게 제일 빠를것 같습니다만, 실제로 검색엔진이 이런식이죠 고운 하루되세요.

문서를 색인하고 거기에 대한 역파일을 만든다는게 어떤거죠?
지식이 부족하여 느낌이 팍 안 오네요. ^^

답글

mysql 을 사용해서 검색한다면 Full-text search를 이용하

글쓴이: lovethecorners / 작성시간: 목, 2005/01/06 - 10:38오후

mysql 을 사용해서 검색한다면 Full-text search를 이용하면
되지않을까요. :wink:

답글

HWP 관련 라이브러리가 있나요? (libhwp? 8) ) 없다면 파일

글쓴이: 7339989b62a014c... / 작성시간: 목, 2005/01/06 - 10:49오후

HWP 관련 라이브러리가 있나요? (libhwp? 8) ) 없다면 파일 포맷에 대한 분석 부터 해야 할 것 같은데...

답글

지금 봤더니 아래아한글2002에 "한컴 파일 형식 변환기"라는 문서 일괄

글쓴이: 익명 사용자 / 작성시간: 목, 2005/01/06 - 11:02오후

지금 봤더니 아래아한글2002에 "한컴 파일 형식 변환기"라는 문서 일괄 변환기가 있습니다. HWPML 마크업랭귀지, html, txt등으로 변환이 가능합니다.

답글

구글이 좋다 하시니....google desktop 류의 PC용

글쓴이: 정지용 / 작성시간: 목, 2005/01/06 - 11:30오후

구글이 좋다 하시니....

google desktop 류의 PC용 검색 시스템을 이용하시는 것도 쉽고 편안한 대안이 되겠네요. 이를 위해서는 윗 분 말씀대로 .txt나 .html로 변환을 해놓아야 겠죠. =)

단순히 file system을 이용해도 몇백개 정도는 거뜬하긴 합니다만, 왠지 구글을 쓰면 더 멋있어 보여서 ... :oops:

;)

답글

[quote="DBbuster"]mysql 을 사용해서 검색한다면 Ful

글쓴이: 익명 사용자 / 작성시간: 금, 2005/01/07 - 1:53오후

DBbuster wrote:

mysql 을 사용해서 검색한다면 Full-text search를 이용하면
되지않을까요. :wink:

너무 오래지 않을까요? 양이 많다면..

답글

할수 있으면, 문서 파일을 html 보다는 xml로 만들어 놓으면 검색이

글쓴이: atie / 작성시간: 금, 2005/01/07 - 2:03오후

할수 있으면, 문서 파일을 html 보다는 xml로 만들어 놓으면 검색이나 차후 확장에 용이할 듯 하군요. 어떻게 프로그램을 구성할 것인지 몰라도, DB에 넣고 검색을 하는 것은 파일을 읽어 검색하는 것보다 대개의 경우 DB 커넥션을 고려하면 시간이 느립니다. 그리고, 검색 엔진도 DB에서 제공하는 것으로 제한이 된다는 단점도 있고요.

----
I paint objects as I think them, not as I see them.
atie's minipage

답글

[quote="googlejoa"][quote="charsyam"]각각의

글쓴이: kane / 작성시간: 금, 2005/01/07 - 2:26오후

googlejoa wrote:

charsyam wrote:
각각의 문서를 색인하고 거기에 대한 역파일을 만들어서 그걸 뒤지시는게 제일 빠를것 같습니다만, 실제로 검색엔진이 이런식이죠 고운 하루되세요.

문서를 색인하고 거기에 대한 역파일을 만든다는게 어떤거죠?
지식이 부족하여 느낌이 팍 안 오네요. ^^

우선 각 문서에서 키워드로 사용할 단어를 추출합니다.
그리고 각 키워드 별로 어떤 문서에 포함되는지를 나타내는 목록을 만듭니다.

kldp -> 1, 3, 10
linux -> 2, 3, 9
X -> 4, 5, 6

그러면 위와 같은 형태가 될 겁니다. (숫자는 문서를 나타내는 번호입니다)
그러고 나서는 키워드로 검색만 하면 되죠. ^^

답글

[quote="atie"]할수 있으면, 문서 파일을 html 보다는 xm

글쓴이: 익명 사용자 / 작성시간: 금, 2005/01/07 - 4:25오후

atie wrote:

할수 있으면, 문서 파일을 html 보다는 xml로 만들어 놓으면 검색이나 차후 확장에 용이할 듯 하군요. 어떻게 프로그램을 구성할 것인지 몰라도, DB에 넣고 검색을 하는 것은 파일을 읽어 검색하는 것보다 대개의 경우 DB 커넥션을 고려하면 시간이 느립니다. 그리고, 검색 엔진도 DB에서 제공하는 것으로 제한이 된다는 단점도 있고요.

화일을 읽어 검색하는 툴은 어떤게 있나요?
윈도우상에서 쓸수 있는 좋은 프로그램 있나요?
(리눅스에선 grep을 이용하겠지만...)

답글

[quote="Anonymous"][quote="atie"]할수 있으면,

글쓴이: atie / 작성시간: 금, 2005/01/07 - 4:33오후

Anonymous wrote:

atie wrote:
할수 있으면, 문서 파일을 html 보다는 xml로 만들어 놓으면 검색이나 차후 확장에 용이할 듯 하군요. 어떻게 프로그램을 구성할 것인지 몰라도, DB에 넣고 검색을 하는 것은 파일을 읽어 검색하는 것보다 대개의 경우 DB 커넥션을 고려하면 시간이 느립니다. 그리고, 검색 엔진도 DB에서 제공하는 것으로 제한이 된다는 단점도 있고요.

화일을 읽어 검색하는 툴은 어떤게 있나요?
윈도우상에서 쓸수 있는 좋은 프로그램 있나요?
(리눅스에선 grep을 이용하겠지만...)

글쎄요, 키워드 검색이냐 풀 텍스트 검색이냐 경우에 따라 다르겠죠. 자바도 괜찮다면, Lucene이 대표적인 오픈소스 서치엔진이죠. 몇 개의 키워드를 xml tag에 넣는다면 단순 키워드 서치는 xpath로 해도 되고요.

// 답변을 써놓고 다시 읽어보니, 툴을 물어보신거면 엉뚱한 답을 한 것이군요. 프로그램을 작성한다는 것을 염두에 쓴 거라서요.

----
I paint objects as I think them, not as I see them.
atie's minipage

답글

댓글 달기

이름

제목

댓글 *

텍스트 포맷에 대한 자세한 정보

텍스트 양식

Filtered HTML

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
You can use Textile markup to format text.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
Quick Tips:
- Two or more spaces at a line's end = Line break
- Double returns = Paragraph
- *Single asterisks* or _single underscores_ = Emphasis
- **Double** or __double__ = Strong
- This is [a link](http://the.link.example.com "The optional title text")
For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

HTML 태그를 사용할 수 없습니다.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
줄과 단락은 자동으로 분리됩니다.

CAPTCHA

이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.

부 메뉴

검색을 주로 하고자 할때 구현 방법.

한글 파일이라는게 아래한글 파일(.hwp같은)을 말하는 것이겠죠?일반

각각의 문서를 색인하고 거기에 대한 역파일을 만들어서 그걸 뒤지시는게 제

[quote="charsyam"]각각의 문서를 색인하고 거기에 대한 역파

mysql 을 사용해서 검색한다면 Full-text search를 이용하

HWP 관련 라이브러리가 있나요? (libhwp? 8) ) 없다면 파일

지금 봤더니 아래아한글2002에 "한컴 파일 형식 변환기"라는 문서 일괄

구글이 좋다 하시니....google desktop 류의 PC용

[quote="DBbuster"]mysql 을 사용해서 검색한다면 Ful

할수 있으면, 문서 파일을 html 보다는 xml로 만들어 놓으면 검색이

[quote="googlejoa"][quote="charsyam"]각각의

[quote="atie"]할수 있으면, 문서 파일을 html 보다는 xm

[quote="Anonymous"][quote="atie"]할수 있으면,

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

둘러보기

부 메뉴

현재 위치

검색을 주로 하고자 할때 구현 방법.

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

검색 폼

둘러보기

사용자 로그인

Oauth2 Login :