html 문서에서 tag만 추출하려고 하는데요 조언 부탁 드립니다.
글쓴이: lhs8421478 / 작성시간: 화, 2013/03/05 - 3:57오후
안녕하세요 C언어를 공부중인 청년입니다.
현재 진행중인 프로그램은 html 문서에서 tag만 추출해서 뽑아내려고 합니다.
진행 상황은
/*
file : tag_find.c
return : 성공 0 , 실패 -1
html문서를 읽어 들여 tag만 추출해서 txt파일에 저장하는 프로그램
*/
#include <stdio.h>
#include <string.h>
#include <stdlib.h>
void tag_find(FILE *html, FILE *txt);
/*
main 함수
인자값으로 오픈할 html 파일명과 저장할 txt 파일명을 받는다.
받아온 이름의 파일을 오픈한다.
*/
int main(int argc, char **argv)
{
FILE *html_file;
FILE *txt_file;
html_file = fopen(argv[1], "r");
if (html_file == NULL) {
printf("html_file open error\n");
return -1;
}
txt_file = fopen(argv[2], "w");
if (txt_file == NULL) {
printf("txt_file open error\n");
return -1;
}
tag_find(html_file, txt_file);
fclose(html_file);
fclose(txt_file);
return 0;
}
/*
tag_find 함수
인자값으로 html 파일 포인터와 txt 파일 포인터를 받아온다.
인자값으로 받아온 html파일에서 한글자씩 읽어들여 배열에 저장하고
tag들을 찾아서 txt파일에 copy한다.
*/
void tag_find(FILE *html, FILE *txt)
{
char tag[20];
char *buf_pt;
char ch;
int cnt;
cnt = 0;
while (EOF != (ch = fgetc(html))) {
buf_pt = tag;
memset(tag, 0x00, 20);
if (ch == '<') {
*buf_pt = ch;
buf_pt++;
while ((ch = fgetc(html)) != '>') {
*buf_pt = ch;
buf_pt++;
}
buf_pt++;
*buf_pt = ch;
printf("%s\n", tag);
cnt++;
fprintf(txt, "%d : %s\n", cnt, tag);
}
}
}입니다.
현재의 문제점은 txt파일에 저장할때 '>'를 출력을 안할뿐더러.... 중간에 문자가 깨지는 현상도 일어나고 있습니다.
어떠한 이유인지 몰라서 이렇게 글을 남깁니다.. 도움 부탁 드립니다 ㅠㅠ
오류나는 부분은 파일 첨부 합니다 ㅠㅠ
File attachments:
| 첨부 | 파일 크기 |
|---|---|
| 23.13 KB |
Forums:


글쓴이 입니다...
문자 깨지는 부분은... 배열의 크기 문제였네요... 이부분은 해결했습니다 ㅠㅠ 다만...
'>' 이게 왜 안들어가는지 모르겠네요 ㅠㅠ
글쓴이 입니다....
모든 문제 해결했습니다 ㅠㅠ
바보같은짓을 참 많이 했네요 ㅠㅠ
댓글 달기