Posted By: znouza (- Armored Pilsener -) on 'CZscripts'
Title: Re: HTML panic
Date: Thu Jan 18 14:57:12 2001
> Zdar,
>
> az doteraz sa mi celkom darilo vyhybat sa praci s HTML, no teraz sa mi to
> vypomstilo. Potrebujem spravit nieco ako "filter" na HTML zdrojak, cize
> vytiahnut z neho dolezite veci.
> Napriklad vytiahnut z HTML cisty text (ten, ktory sa zobrazuje v
> prehliadaci), pripadne povytahovat vsetky odkazy, alebo cesty k obrazkom.
> Vraj mam vytahovat nejake tagy typu <META NAME="XXXXX" CONTENT="text">. Naco
>
> je tento tag ? Vyskytuje sa v HTML kode viackrat ?
>
> Da sa vlastne nejako jednoducho extrahovat plain text z HTML kodu ? Ake
> dalsie tagy sa oplati este vytahovat ?
>
> Pomoze mi kazda veta o HTML. Vdaka.
>
>
>
>
> Zijem dva zivoty, kazdy v dvoch telach.
> Ja a moje druhe ja.
>
> TopGun.
treba vhodnym regexpem k sedu...
viz. man sed :)
treba vymazani vsech HTML tagu by se dalo udelat pres
sed -e "s/<[^<>]*>//g" soubor.html
pak je jeste potreba smazat prazdny radky (treba pres g/^ *$//g )
vyextrahovat treba jen <a href...> neni problem, da se to udelat taky pres
regexpy a napr. perl
- znouza -
--
At a higher altitude with flag unfurled
We reached the dizzy heights of that dreamed of world...
--