형태소 분석기 도입은?

antz의 이미지

안녕하세요. :-)

검색엔진에 형태소 분석기를 붙이려고 합니다.

검색엔진은 C언어로 되있고,
형태소 분석 대상은 40byte 상호명 입니다.
600만개 되는 상호를 각각에 대해서 형태소 분석 후
검색을 할 수 있도록 할 것 입니다.

혹시 형태소 분석기를 개발 하시거나,
형태소 분석기를 도입해서 개발해 보신 분들에게
조언을 받고 싶습니다.

지금 웹에서 이곳 저곳 정보를 찾고 있습니다만,
개발하신 분의 조언을 듣는게 빠를것 같네요.

    1. 어떤 형태소 분석기가 있는지? 2. 개발 했으면 개발은 어떻게 되는지?
    3. 따로 단어집(?)은 편집은 했는지?
    4. 상용인지(가격도 말씀해 주시면 감사하고요. :-))?
등등 조언을 부탁 드리겠습니다.

우선은 검색엔진에 적합한 형태소 분석기를 찾는일이
먼저일것 같습니다.

부탁 드리겠습니다.

[/]
hurryon의 이미지

예전에 작업을 했었습니다만, 국내의 자연어 처리 분야는 고려대 인공지능랩과 부산대 인공지능랩이 좀 알아 줍니다. 제가 예전에 작업한 녀석은 고려대측에서 개발한 녀석을 사용했었습니다. 부산대측에서 개발한 샘플도 다루어 보았지만 특별나게 다른건 없었습니다.

오호라의 이미지

동의어, 유의어...

다이나믹한 기능이 있는 형태소 분석기를 만드실려면 좀 노력좀 해야하실겁니다.

오픈된 내용이 거의 없고, 상용이라고해도 입맛에 맞는거를 찾기가 힘드실겁니다.

그래서, 컴파일(공룡책)을 추천해드립니다.

개인적으로 모 대학 형태소분석기 소스가 있는데...비공개용이라...

상업적인 목적이 아니라...공부차원이라면 오픈해드리겠습니다.

^^

Hello World.

pdavid의 이미지

형태소 분석에 관심이 많은 플머입니다.
소스 오픈해주시면 많은 도움이 될것 같습니다.
부탁드립니다.
제 멜로 보내주시면 감사 ^^

^^ 모르는것을 배우고 싶어요~

marten의 이미지

오호라 wrote:

개인적으로 모 대학 형태소분석기 소스가 있는데...비공개용이라...

상업적인 목적이 아니라...공부차원이라면 오픈해드리겠습니다.

^^

형태소 분석기 소스보다는 <형태소 사전>의 공개가 더 필요하지 않을까 싶습니다.
이 정도는 정부가 해줘야 하는 일 아닌지 싶네요. :cry:

charsyam의 이미지

hurryon wrote:
예전에 작업을 했었습니다만, 국내의 자연어 처리 분야는 고려대 인공지능랩과 부산대 인공지능랩이 좀 알아 줍니다. 제가 예전에 작업한 녀석은 고려대측에서 개발한 녀석을 사용했었습니다. 부산대측에서 개발한 샘플도 다루어 보았지만 특별나게 다른건 없었습니다.

제가 그 랩에서 알바를 했었다는 ^^

=========================
CharSyam ^^ --- 고운 하루
=========================

antz의 이미지

오호라 wrote:

그래서, 컴파일(공룡책)을 추천해드립니다.
개인적으로 모 대학 형태소분석기 소스가 있는데...비공개용이라...
상업적인 목적이 아니라...공부차원이라면 오픈해드리겠습니다.
^^

감사합니다. :-)

한번 소스 보고 싶네요.
(따로 메세지 남기겠습니다.)

회사 과장님이 부탁하셔서
우선 이것 저것 조사 중입니다.
도입을 할지, 말지도 아직 결정되지 않았습니다. ^^;
(과장님은 리포트를 받기를 원하시죠.)

다시한번 감사드립니다. :-)

r320hz의 이미지

지금은 국민대(?) 교수이신 강승식 교수님에게 콘택 하시면,
이 분야에서 이용 가능한 라이브러리를 얻으실 수 있을 겁니다.
상업적 제품에도 사용된 것으로 알고 있습니다.

antz의 이미지

r320hz wrote:
지금은 국민대(?) 교수이신 강승식 교수님에게 콘택 하시면,
이 분야에서 이용 가능한 라이브러리를 얻으실 수 있을 겁니다.
상업적 제품에도 사용된 것으로 알고 있습니다.

강승식 교수님과 메일 연락이 되었습니다.

감사합니다. :-)

익명 사용자의 이미지

좀 늦은 감이 있네요
일찍 발견했으면 좋았을 것을요..

이식성이 뛰어난 PHP 형태소 분석기를 개발한 상태입니다
조만간 서비스를 하려 준비중에 있습니다

<a href='http://lab.zagia.com>http://lab.zagia.com</a>

방문 후 확인해 보세요

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.