C언어에서 HTML 코드 파싱

글쓴이: qkrwncks593 / 작성시간: 토, 2014/08/09 - 10:29오후

C언어에서 HTML 코드를 파싱할때 어떤방식으로 주로 하시는지 궁금합니다.

Forums:

프로그래밍 QnA

댓글 달기

qt4 webkit을 씁니다. webelement

글쓴이: 별님 / 작성시간: 일, 2014/08/10 - 1:36오전

qt4 webkit을 씁니다. webelement 클래스를 사용하면, css 선택자 문법으로 손쉽게 html 태그를 선택하고 조작할수 있습니다.

답글

그런데, 이 방법은 매우 성가신 작업입니다. 한줄

글쓴이: 별님 / 작성시간: 일, 2014/08/10 - 6:10오전

그런데, 이 방법은 매우 성가신 작업입니다. 파싱 기능만 분리시켜 사용하는게 불가능하기에 몇차례의 입력과 변환 작업을 해줘야 합니다.
잘 작동하지 않는다는 점도 문제입니다. 문법에 맞게 재작성한 것도 어떨때는 일부만 출력하더군요.
가장 큰 문제는 qt5에서 이러한 기능이 사라졌다는 점입니다.

또 다른 방법이 있습니다.
html문서를 xml규격에 맞게 다듬는 과정을 거쳐 xhtml문서로 만듭니다. 그뒤 pugixml과 같은 xml 파서로 파싱합니다. 이렇게 하면, html문서의 이상구조에 따른 오작동을 미리 방지하고, 보다 정확한 결과를 기대할수 있으며, xml 관련 도구를 활용하여 보다 유연하게 코드를 작성할수 있습니다. 대개 xpath로 한줄 또는 몇줄로 결과를 가져와서 처리합니다.

답글

윗분에 이어서... 다음 링크가 도움이 될

글쓴이: 익명 사용자 / 작성시간: 일, 2014/08/10 - 5:40오후

윗분에 이어서...
다음 링크가 도움이 될 겁니다.

http://curl.haxx.se/libcurl/c/htmltidy.html
http://tidy.sourceforge.net/

답글

저는 그냥 strtok 를 주로 씁니다.

글쓴이: yukariko / 작성시간: 일, 2014/08/10 - 5:39오전

검색하기위해 필요한 구분자를 찾고, 그 구분자들을 strtok로 걸러내는 작업을 해줍니다.

답글

우선 목적을 명확히하셔야합니다. HTML을 파싱을

글쓴이: klara / 작성시간: 일, 2014/08/10 - 11:38오전

우선 목적을 명확히하셔야합니다. HTML 파싱을 어렵게하는건 워낙 대중적인 마크업언어이다보니 변칙적이고 비문법적인 구문이 많다는것입니다. 특정 태그를 추출하고싶은거라면 간단하지만 브라우저처럼 모든엘리먼트와 그 속성과 스타일을 파악하는거라면 차라리 웹킷같은 브라우저 라이브러리를 쓰는게훨씬낫습니다.

답글

댓글 달기

이름

제목

댓글 *

텍스트 포맷에 대한 자세한 정보

텍스트 양식

Filtered HTML

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
You can use Textile markup to format text.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
Quick Tips:
- Two or more spaces at a line's end = Line break
- Double returns = Paragraph
- *Single asterisks* or _single underscores_ = Emphasis
- **Double** or __double__ = Strong
- This is [a link](http://the.link.example.com "The optional title text")
For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

HTML 태그를 사용할 수 없습니다.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
줄과 단락은 자동으로 분리됩니다.

CAPTCHA

이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.

부 메뉴

C언어에서 HTML 코드 파싱

qt4 webkit을 씁니다. webelement

그런데, 이 방법은 매우 성가신 작업입니다. 한줄

윗분에 이어서... 다음 링크가 도움이 될

저는 그냥 strtok 를 주로 씁니다.

우선 목적을 명확히하셔야합니다. HTML을 파싱을

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

둘러보기

부 메뉴

현재 위치

C언어에서 HTML 코드 파싱

qt4 webkit을 씁니다. webelement

그런데, 이 방법은 매우 성가신 작업입니다. 한줄

윗분에 이어서... 다음 링크가 도움이 될

저는 그냥 strtok 를 주로 씁니다.

우선 목적을 명확히하셔야합니다. HTML을 파싱을

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

검색 폼

둘러보기

사용자 로그인

Oauth2 Login :