웹페이지 파싱 작업에 최적화 된 언어가 무엇이라고 생각하시나요?

zakga의 이미지

프로그래밍이라고는 C언어와 자바의 기본적 개론 정도밖에 모르는 정도입니다. 관련학과 대학과정 졸업을 앞두고 있는데 제가 웹쪽에 급 관심이 생겼습니다. 앞으로 나아갈 방향을 정한 만큼 주력 언어를 정하여 작업을 시작하고 싶습니다.

언어 하나를 마스터하는 것은 쉽지 않다는 것 정도는 알고 있지만 문법만큼은 최대 한달 가량만 잡아도 어느 정도 능숙하게 쓸 수는 있잖아요 ^^; 그러다 보면 자연히 그 언어의 고유 특성? 같은 것도 자연히 파악할 수 있을것 같아서.. 여쭤봅니다 ㅎㅎ kldp에는 갖은 어를 섭렵하신 분이 많 은것 같더군요.

물론론 검색도 해보았습니다. 근데포스팅 날짜가 너무 오래된 것들이라.. 이렇게 직접 질문을 올리게 됬네요.
현재 생각중인 것들은 php perl ruby python 정도입니다! 언어가 별의미 없다생각 될땐 그냥저냥 할줄아는 언어인 자바로 나갈까 생각중..(jcrawler 라는 라이브러리가 있더군요)

모바일로 작성해서 인지 뒤죽박죽이긴 하지만 글읽어주셔 감사합니다

zakga의 이미지

글이 수정이 안되네요! 약간 질문이 모호한 것같아 다시 말씀드리자면 현재 제가 만들어보고 싶은 프로그램이 웹파싱 작업 관련이고, 생각중인 향후 진로가 웹프로그래밍입니당.

익명 사용자의 이미지

최적화까진 모르겠지만 perl은 text processing을 위해 태어난 언어입니다.

simminjo의 이미지

웹파싱과 웹프로그래밍이 어떤관계가 있나요....
단순히 dom 파싱정도라면 jsoup도 훌륭한 라이브러리지요...(자바용 라이브러리)

스트링 처리라면 perl만한게 없을지도 모르겠습니다.

---------------------------------------------------------------
Opensource에 기여하는 것이 꿈입니다.
내가 만든 코드를 모두가 사용할 때 까지~

익명 사용자의 이미지

웹파싱에도 영혼이 있다면 각종 노이즈 문자를 두려워 않고 견뎌내는 인내와
어떤 시련에도 태그를 매칭하는 책임감
차가운 정규식이지만 문자를 감싸 안는 따뜻함을 가졌을 것입니다.
단언컨데 Perl은 가장 완벽한 웹스크레핑 언어입니다.
웹스크레핑언어 펄~

왜 그런지는 http://www.slideshare.net/keedi/perl-101reordered 요런 자료보면 이해되실듯.

익명 사용자의 이미지

lisp도 한달만에 어느정도 능숙하게 쓰실 수 있으시다면 그런 걱정따윈....

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.