lynx -dump 로받은 html문서를 텍스트??문서로 바꿀수있나여??
그냥 html태그삭제하고 그림도 상관없이 글씨만 보이면 되게할려고해요
sed로 <> 사이에 있는 것만 지워볼려고했는데 이것도 잘안돼네요 ;;
help me~~~~~
ubuntu에는 html2text라는 패키지가 있더군요
links, w3m 은 덤프옵션으로 준비되어 있습니다. (lynx 는... 좀... 구식이라 생각됩니다.)
links 와 w3m 은 약간 차이가 있습니다.
links
[bushi@rose onenand]$ links -dump 1 <a href="http://www.google.com" rel="nofollow">http://www.google.com</a>|iconv -f euckr -t utf8 [1]iGoogle | [2]로그인 [3]Google 웹문서 [4]이미지 [5]뉴스 [6]그룹스 [7]더보기 >> [8]________________________________________________________ [11]고급검색 [9][ Google 검색 ] [10][ I’m Feeling Lucky ] [12]환경설정 [13]언어도구 [14]( ) 전체 웹 [15]( ) 한국어 웹 [16]광고 프로그램 - [17]Google 정보 - [18]채용정보 - [19]Google.com in English (c)2007 Google References Visible links 1. <a href="http://www.google.co.kr/url?sa=p&pref=ig&pval=3&q=http://www.google.co.kr/ig%3Fhl%3Dko&usg=AFrqEzdNc1b2ouFKPrSgwGOw2JKjQ5PB7Q " rel="nofollow">http://www.google.co.kr/url?sa=p&pref=ig&pval=3&q=http://www.google.co.kr/ig%3Fhl%3Dko&usg=AFrqEzdNc1b2ouFKPrSgwGOw2JKjQ5PB7Q </a> 2. <a href="https://www.google.com/accounts/Login?continue=http://www.google.co.kr/&hl=ko " rel="nofollow">https://www.google.com/accounts/Login?continue=http://www.google.co.kr/&hl=ko </a> 4. <a href="http://images.google.co.kr/imghp?ie=EUC-KR&oe=EUC-KR&hl=ko&tab=wi " rel="nofollow">http://images.google.co.kr/imghp?ie=EUC-KR&oe=EUC-KR&hl=ko&tab=wi </a> 5. <a href="http://news.google.co.kr/nwshp?ie=EUC-KR&oe=EUC-KR&hl=ko&tab=wn " rel="nofollow">http://news.google.co.kr/nwshp?ie=EUC-KR&oe=EUC-KR&hl=ko&tab=wn </a> 6. <a href="http://groups.google.co.kr/grphp?ie=EUC-KR&oe=EUC-KR&hl=ko&tab=wg " rel="nofollow">http://groups.google.co.kr/grphp?ie=EUC-KR&oe=EUC-KR&hl=ko&tab=wg </a> 7. <a href="http://www.google.co.kr/intl/ko/options/ " rel="nofollow">http://www.google.co.kr/intl/ko/options/ </a> 11. <a href="http://www.google.co.kr/advanced_search?hl=ko " rel="nofollow">http://www.google.co.kr/advanced_search?hl=ko </a> 12. <a href="http://www.google.co.kr/preferences?hl=ko " rel="nofollow">http://www.google.co.kr/preferences?hl=ko </a> 13. <a href="http://www.google.co.kr/language_tools?hl=ko " rel="nofollow">http://www.google.co.kr/language_tools?hl=ko </a> 16. <a href="http://www.google.co.kr/intl/ko/ads/ " rel="nofollow">http://www.google.co.kr/intl/ko/ads/ </a> 17. <a href="http://www.google.co.kr/intl/ko/about.html " rel="nofollow">http://www.google.co.kr/intl/ko/about.html </a> 18. <a href="http://www.google.co.kr/intl/ko/jobs/ " rel="nofollow">http://www.google.co.kr/intl/ko/jobs/ </a> 19. <a href="http://www.google.com/ncr " rel="nofollow">http://www.google.com/ncr </a>[bushi@rose onenand]$
w3m
[bushi@rose onenand]$ w3m -dump <a href="http://www.google.com" rel="nofollow">http://www.google.com</a> Received cookie: PREF=ID=35a77fffdfb3ff49:TM=1179321280:LM=1179321280:S=EX1G6tCOg6KZ4iqb Received cookie: PREF=ID=09181cd00a86b0cf:NW=1:TM=1179321280:LM=1179321280:S=iJi041cCMaY5_iiN iGoogle | 로그인 Google 웹문서 이미지 뉴스 그룹스 더보기 » [ ] 고급검 색 [Google 검색][I’m Feeling Lucky] 환경설정 언어도 구 (*) 전체 웹 ( ) 한국어 웹 광고 프로그램 - Google 정보 - 채용정보 - Google.com in English ©2007 Google [bushi@rose onenand]$
[bushi@rose onenand]$
위에 있는 보기처럼 rose라는 글자 뒤에 빈칸이 있는데, 그거 어떻게 집어넣었나요? 전 처음에 설치할 적에 빈칸 넣어보려고 했더니 안돼서 그냥 빈칸 없는 이름을 쓰고 있거든요.
onenand 는 디렉토리 명이 아닐까요?
텍스트 포맷에 대한 자세한 정보
<code>
<blockcode>
<apache>
<applescript>
<autoconf>
<awk>
<bash>
<c>
<cpp>
<css>
<diff>
<drupal5>
<drupal6>
<gdb>
<html>
<html5>
<java>
<javascript>
<ldif>
<lua>
<make>
<mysql>
<perl>
<perl6>
<php>
<pgsql>
<proftpd>
<python>
<reg>
<spec>
<ruby>
<foo>
[foo]
ubuntu에는 html2text라는
ubuntu에는 html2text라는 패키지가 있더군요
links, w3m 은
links, w3m 은 덤프옵션으로 준비되어 있습니다.
(lynx 는... 좀... 구식이라 생각됩니다.)
links 와 w3m 은 약간 차이가 있습니다.
links
w3m
저.. 본문과 상관없는 내용이라 죄송한데요..
[bushi@rose onenand]$
위에 있는 보기처럼 rose라는 글자 뒤에 빈칸이 있는데, 그거 어떻게 집어넣었나요?
전 처음에 설치할 적에 빈칸 넣어보려고 했더니 안돼서 그냥 빈칸 없는 이름을 쓰고 있거든요.
onenand 는 디렉토리
onenand 는 디렉토리 명이 아닐까요?
댓글 달기