C언어 html 파싱에 대해서 질문드립니다.

lhs8421478의 이미지

안녕하세요 C언어를 공부중인 청년입니다.

현재 해보려는 프로그램은 html문서를 fopen으로 읽어서

C언어 처럼 들여쓰기를 하려고 합니다.

<html>
    <head>
        <title>
            안녕하세요.
        </tile>
    </head>
</html>

이런식으로 할려고 하는데요...

아무리 짱돌을 굴려도 처리하는 방법을 모르겠네요 ㅠㅠ

파일 열고 한줄 읽어서 파일에 다시 쓸때 처리를 해야될꺼 같은데....

줄내림과 들여쓰기 하는 방식에 대해서 조언을 구하고자 이렇게 글을 남깁니다.

도움 부탁 드립니다.

gilgil의 이미지

xpath에 대해서 공부해 보시면 좋을 겁니다(구글에서 "html xpath"로 검색).

익명 사용자의 이미지

몇번 들여써야 하는지 구하려면 스택을 활용하면 됩니다.

익명 사용자의 이미지

level을 두어서 태그가 열릴 때마다 1 증가시키고, 태그가 닫힐 때 1 감소시킵니다. 각 태그나 값을 출력할 때 출력하기 전에 level 만큼 탭(또는 정해진 개수의 공백문자)을 출력합니다.

lhs8421478의 이미지

답글 감사합니다
탭카운트를 이용해서 탭을 먹이도록 해놨는데 문제는 이제 비교문이되버렸네요....
현재는 < >이두가지 가지고 하려고했지만 한계가있어서 계속 수정 중에있습니다ㅠㅠ
역시 짱돌을 잘굴려야되는데 안굴러가네요 ㅠㅠ

kippler의 이미지

http://www.indidev.net/forum/viewtopic.php?p=570 첨부파일 보시면

XHtmlParser.h/cpp 라고 있습니다.

html 태그를 파싱해서 트리구조로 바꿔주는 소스죠. 소스가 간단하니 공부하는데 아마 도움이 되실껍니다.

======== 서명 =======
주거지는 www.indidev.net 입니다.

lhs8421478의 이미지

소스코드 보고 있는데... 어렵네요 ㅎㅎㅎ

공부에 도움 주셔서 감사합니다 ~

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.