Posted By: znouza (- Armored Pilsener -) on 'CZscripts'
Title:     Re: HTML panic
Date:      Thu Jan 18 14:57:12 2001

> Zdar,
> 
> az doteraz sa mi celkom darilo vyhybat sa praci s HTML, no teraz sa mi to 
> vypomstilo. Potrebujem spravit nieco ako "filter" na HTML zdrojak, cize 
> vytiahnut z neho dolezite veci. 
> Napriklad vytiahnut z HTML cisty text (ten, ktory sa zobrazuje v 
> prehliadaci), pripadne povytahovat vsetky odkazy, alebo cesty k obrazkom. 
> Vraj mam vytahovat nejake tagy typu <META NAME="XXXXX" CONTENT="text">. Naco
> 
> je tento tag ? Vyskytuje sa v HTML kode viackrat ?
> 
> Da sa vlastne nejako jednoducho extrahovat plain text z HTML kodu ? Ake 
> dalsie tagy sa oplati este vytahovat ?
> 
> Pomoze mi kazda veta o HTML. Vdaka.
> 
>  
> 
> 
> Zijem dva zivoty, kazdy v dvoch telach.
> Ja a moje druhe ja.
> 
> TopGun.

treba vhodnym regexpem k sedu...
viz. man sed :)
treba vymazani vsech HTML tagu by se dalo udelat pres
sed -e "s/<[^<>]*>//g" soubor.html

pak je jeste potreba smazat prazdny radky (treba pres g/^ *$//g )
vyextrahovat treba jen <a href...> neni problem, da se to udelat taky pres 
regexpy a napr. perl
 
                                             - znouza -
--
  At a higher altitude with flag unfurled
  We reached the dizzy heights of that dreamed of world...
                                                          --

Search the boards