[완료] 영어단어의 동의어나 반의어를 네이버 영어 사전에서 파싱으로 긁어오는 작업에 대한 질문입니다.

fastwater의 이미지

졸업 프로젝트에서 사용할 데이터를 만들어야 되는데

대략 1000~2000 단어 사이의 단어장 데이터를 만들어야 합니다.
사실 뭐 인터넷에 있는 단어장 하나 사용하면 단어장 자체는 만들어지는데 동의어나 반의어, 아니면 품사등의 정보가 정확치 않기 때문에 일일이 저희가 넣어줘야 하겠더군요.

이게 영... 노가다라 하기 싫은데 네이버 사전에서 html 파싱으로 긁어오는 방법을 사용하면 쉽게 가능할지 궁금합니다.

예전에 DC 게시판 파싱 하고 게시물 안쪽 까지 들어가는 코드는 짜본적이 있긴 한데 깊이 들어가지는 못해서 익숙치가 않습니다. html 파싱 코드를 만들어서 자동으로 하는 것과 그냥 수작업으로 노가다 뛰는거랑 뭐가 더 시간이 덜 걸릴지 잘 모르겠네요.
어느게 더 쉬울지 궁금하고, C, C#, JAVA 세가지 중 뭐가 제일 효율적으로 프로그래밍이 가능할지 알려주시면 감사하겠습니다. (자바스크립트는 잘 몰라요 ㅠㅠ)

익명 사용자의 이미지

네이버 사전을 잠시 훑어봤는데 정규식을 이용하면 손쉽게 처리할 수 있을 것으로 생각되는군요. c#이나 java중 익숙한 것으로 파싱하시면 될 듯 합니다.

fastwater의 이미지

나중에 시간 날 때 C#으로 한번 도전해봐야겠네요.

cleansugar의 이미지

사전 가져올 때 리스트 주소가 없는데 어떻게 가져오나요?

해 보신 분?

재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.

아이디의 아이디어 무한도전
http://blog.aaidee.com

귀태닷컴
http://www.gwitae.com

익명 사용자의 이미지

네이버의 단어를 긁어서 따로 저장하시면, 저작권 침해가 될텐데요?
저장하지않고, 입력을 받을때마다 네이버에 쿼리를 날리고,
결과를 동적으로 뿌려주게끔 구현을 하셔야 저작권침해를 벗어나실수 있을것입니다.

어짜피, 졸업프로젝트이고, 가져다 팔것 아니니, 타인의 저작권 정도는 침해해도 괜찮다고 생각하시면
잘못된 출발이라고 하고싶네요.

딴지가 아닌, 올바르게 출발을 하시라고 충고를 드리는겁니다.

jick의 이미지

사전에 올라온 표제어가 수만~수십만 수준이란 걸 고려하면 1000개 정도는 큰 문제가 안될 것 같습니다만...

* 물론 그 데이터를 이용해서 팔거나 공개 소프트웨어에 집어넣거나 하면 문제가 되겠죠. 하지만 졸업 프로젝트라면... 뭐 어차피 네이버에서 안 긁어도 다른 종이사전이나 단어장 붙잡고 쳐넣고 있을 테니 결과적으로 마찬가지 아니겠습니까. -_-

익명 사용자의 이미지

>> 뭐 어차피 네이버에서 안 긁어도 다른 종이사전이나 단어장 붙잡고 쳐넣고

본인이 구매/소유하고 있는 다른 종이사전이나 단어장 붙잡고 쳐넣고, 주변 지인(불특정 다수가 아닌)에게
재배포하는것은 저작권 침해가 아닙니다. 졸업 작품이 인터넷에 올라가서 불특정 다수에게 배포가 되지 않는다음에야
괜찮을것이라 생각합니다.

또한, 학교 소유의 사전을 사용하는것도 가능합니다. 학교에 있는 서적들은 교내에서의 사용이나 학술목적의 사용이
허용되어 있으니까요.

하지만, 네이버 사전의 데이터를 본인이 구매/소유하고 있다고 생각하긴 힘들지 않을까 추측합니다.( 저는 법률 전문가가 아닙니다. )

>> 1000개 정도는 큰 문제가 ...
>> 하지만 졸업 프로젝트라면...

저작권 침해의 양이 중요한것이 아닙니다.
저작권을 침해한다는것 자체가 문제입니다.

왜 졸업작품가지고, 그렇게 까다롭게 구느냐 의문을 갖으신다면,
글 쓰시는 분이 이제 졸업하는 전산학도이기 때문입니다.

본인들 스스로도 저작권을 중요하게 여기지도 않고,
본인들 스스로도 타인의 저작권을 침해하는것을 별로 중요하게 여기지 않는
프로그래머들을 많이 봐왔기 때문입니다.

이미 길들여진 분들이야 어쩔수 없더라도, 새로 졸업하시는 분들은
올바른 저작권의식을 가졌으면 하는게 제 바램입니다.

keedi의 이미지

100개 정도 긁어오신다면 수작업이 빠르고
그 이상부터는 자동화하시는 것이 빠를겁니다.

C로 한다면 한 500개 수작업으로 처리하는 시간이면 작성하시겠네요.
구글링하고, 라이브러리 찾고, 헤매면 조금 더 걸릴테구요.

perl, python, ruby 같은 스크립트 언어로 한다면
넉넉잡고 html 코드 파악에 1시간, 작성에 1시간 정도 걸릴 것 같네요.
긁어 올때는 user agent 값은 익스플로어로 설정하시고,
5분에 5개 이하로 천천히 돌리시구요.

2012년 Perl 석가탄신일 달력에도 나오지만 초보 프로그래머도
언어와 라이브러리의 도움을 받으면 금방 작성할 수 있답니다.

http://lotus.perl.kr/2012/03.html

----
use perl;

Keedi Kim

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.