html 문서에서 tag만 추출하려고 하는데요 조언 부탁 드립니다.
글쓴이: lhs8421478 / 작성시간: 화, 2013/03/05 - 3:57오후
안녕하세요 C언어를 공부중인 청년입니다.
현재 진행중인 프로그램은 html 문서에서 tag만 추출해서 뽑아내려고 합니다.
진행 상황은
/* file : tag_find.c return : 성공 0 , 실패 -1 html문서를 읽어 들여 tag만 추출해서 txt파일에 저장하는 프로그램 */ #include <stdio.h> #include <string.h> #include <stdlib.h> void tag_find(FILE *html, FILE *txt); /* main 함수 인자값으로 오픈할 html 파일명과 저장할 txt 파일명을 받는다. 받아온 이름의 파일을 오픈한다. */ int main(int argc, char **argv) { FILE *html_file; FILE *txt_file; html_file = fopen(argv[1], "r"); if (html_file == NULL) { printf("html_file open error\n"); return -1; } txt_file = fopen(argv[2], "w"); if (txt_file == NULL) { printf("txt_file open error\n"); return -1; } tag_find(html_file, txt_file); fclose(html_file); fclose(txt_file); return 0; } /* tag_find 함수 인자값으로 html 파일 포인터와 txt 파일 포인터를 받아온다. 인자값으로 받아온 html파일에서 한글자씩 읽어들여 배열에 저장하고 tag들을 찾아서 txt파일에 copy한다. */ void tag_find(FILE *html, FILE *txt) { char tag[20]; char *buf_pt; char ch; int cnt; cnt = 0; while (EOF != (ch = fgetc(html))) { buf_pt = tag; memset(tag, 0x00, 20); if (ch == '<') { *buf_pt = ch; buf_pt++; while ((ch = fgetc(html)) != '>') { *buf_pt = ch; buf_pt++; } buf_pt++; *buf_pt = ch; printf("%s\n", tag); cnt++; fprintf(txt, "%d : %s\n", cnt, tag); } } }
입니다.
현재의 문제점은 txt파일에 저장할때 '>'를 출력을 안할뿐더러.... 중간에 문자가 깨지는 현상도 일어나고 있습니다.
어떠한 이유인지 몰라서 이렇게 글을 남깁니다.. 도움 부탁 드립니다 ㅠㅠ
오류나는 부분은 파일 첨부 합니다 ㅠㅠ
File attachments:
첨부 | 파일 크기 |
---|---|
K-2.jpg | 23.13 KB |
Forums:
글쓴이 입니다...
문자 깨지는 부분은... 배열의 크기 문제였네요... 이부분은 해결했습니다 ㅠㅠ 다만...
'>' 이게 왜 안들어가는지 모르겠네요 ㅠㅠ
글쓴이 입니다....
모든 문제 해결했습니다 ㅠㅠ
바보같은짓을 참 많이 했네요 ㅠㅠ
댓글 달기