펄의 패턴 매칭에 대해서 질문입니다. ( a href 의 링크 가져오

jenix의 이미지

#!/usr/bin/perl

open HTML, "./get" or die "Can't open $!\n";

while (<HTML>)
{
        $_ =~ m/http:\/\/\w+\.\w+\.\w+\//;

        print $&, "\n";
}

안녕하세요. html 에서 http://주소/ 만 얻어오려고

위와같은 펄 패턴매칭을 사용해 보았습니다.

그런데.. 결과가.. 처음에 한 몇십줄 빈줄이 출력되고

http://주소/ 가 원하던 것처럼 몇가지가 주르르륵 출력되고

그 뒤로

cript LANGUAGE="JavaScript" TYPE="text/javascript"> maketip('SysAdmin - ufsdump - Server:Workstation Replication.pdf','SysAdmin - ufsdump - Server:Workstation Replication.pdf','');  </SCRIPT><a href="http://주소/

가 몇줄 또 출력되네요.

뭐가 문제가 있는것일까요..?

p.s. 추가로 질문 더 해도 될런지요..
사실, a href 의 링크들만 가져오고 싶은 것인데.

저기서 더 어떻게 펄정규식을 써야할지 잘 모르겠습니다.

고수들의 도움 부탁드립니다 ㅠ..ㅠ

nachnine의 이미지

#!/usr/bin/perl

 $urls = "SomeBlahBlahhttp://yahoo.co.kr/index.htmlBlah";
 $urls =~ m@http://[^/]+@i;

 printf $&."\n";

   $anchors = "asdjasldjalsjdja<a href=\"SomeBlah\">asjda</a>";
# $anchors = "asdjasldjalsjdja<a href='SomeBlah'>asjda</a>";
# $anchors = "asdjasldjalsjdja<a href=SomeBlah>asjda</a>";

 $anchors =~ m@<a href=("|'|)([^\1]+).*\1>.*</a>@i;
 printf $2."\n";


1. print 문제 , 를 쓰신것같은데 . 입니다
2. / 로 url을 매칭 하면 헷갈리니까 @나 ! 같은걸로 바꿔쓰세요
3. \1 은 첫번째 매칭된 패턴을 말합니다. ("|'|) 이 첫번째 패턴이니까
홑따옴표 곁따옴표 , 아니면 바로 없는것 셋중에 하나를 골라서
링크의 마지막 부분으로 참조하는거죠
( 그러므로 소스에 포함된 $anchors 예시 3개다 매칭됩니다 )

reference : http://perl.or.kr

jenix의 이미지

감사합니다 _ _*
펄도 한국사용자모임이 있었군요;
perl 강좌 <-- 이런걸로만 검색했었더니;;;
감사!!

---------------------------------------------------------------------------
http://jinhyung.org -- 방문해 보세요!! Jenix 의 블로그입니다! :D

jenix의 이미지

음 -_-;; 죄송한데 한번더;;

제가 약간 수정해 보았습니다.

nachnine 님이 하신것도 해보고..

      8 while (<HTML>)
      9 {
     10     # $anchors = "asdjasldjalsjdja<a href=\"SomeBlah\">asjda</a>";
     11 # $anchors = "asdjasldjalsjdja<a href='SomeBlah'>asjda</a>";
     12 # $anchors = "asdjasldjalsjdja<a href=SomeBlah>asjda</a>";
     13     # $_ =~ m!<a href=("|'|)([^\1]+).*\1>.*</a>!i;
     14     if( $_ =~ m!<a href=["'](.*)["']!i )
     15     {
     16         print ">>> $1 \n";
     17     }
     18 }

로도 해 보았는데요..

http://어쩌구저쩌구

로 잘 잡히다가..

>>> http://주소/SysAdmin%20-%20Jumpstart-Server%20for%20Solaris%202.x.pdf" onMouseOver="tip('SysAdmin - Jumpstart-Server for Solaris 2.x.pdf')" onMouseOut="untip()

까지 잡히는 경우들도 많더라구요..

음.. 이상하네요.. nachnine 님 스크립트 대로라면

" 나 ' 나 \1 에서 시작한 것에서 \1 로 끝날때

끝나게 해줘야할텐데..

제가 수정한거랑 nachnine 님꺼랑 둘다 똑같은 결과가 나오거든요? 처음에 한 몇개는 정상적으로 출력하다가..;;..

조언 부탁드립니다 _ _*

---------------------------------------------------------------------------
http://jinhyung.org -- 방문해 보세요!! Jenix 의 블로그입니다! :D

nachnine의 이미지

죄송

실수가 있었네요

.*\1> 이 아니라 \1.*> 입니다;

nachnine의 이미지

#!/usr/bin/perl 

   $anchors = "asdjasldjalsjdja<a href=\"SomeBlah\">asjda</a>"; 
# $anchors = "asdjasldjalsjdja<a href='SomeBlah'>asjda</a>"; 
# $anchors = "asdjasldjalsjdja<a href=SomeBlah>asjda</a>"; 

 $anchors =~ m@<a href=("|'|)([^\1]+).*?\1>.*</a>@i; 
 printf $2."\n"; 

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.