Posted By: znouza (- Armored Pilsener -) on 'CZscripts' Title: Re: HTML panic Date: Thu Jan 18 14:57:12 2001 > Zdar, > > az doteraz sa mi celkom darilo vyhybat sa praci s HTML, no teraz sa mi to > vypomstilo. Potrebujem spravit nieco ako "filter" na HTML zdrojak, cize > vytiahnut z neho dolezite veci. > Napriklad vytiahnut z HTML cisty text (ten, ktory sa zobrazuje v > prehliadaci), pripadne povytahovat vsetky odkazy, alebo cesty k obrazkom. > Vraj mam vytahovat nejake tagy typu <META NAME="XXXXX" CONTENT="text">. Naco > > je tento tag ? Vyskytuje sa v HTML kode viackrat ? > > Da sa vlastne nejako jednoducho extrahovat plain text z HTML kodu ? Ake > dalsie tagy sa oplati este vytahovat ? > > Pomoze mi kazda veta o HTML. Vdaka. > > > > > Zijem dva zivoty, kazdy v dvoch telach. > Ja a moje druhe ja. > > TopGun. treba vhodnym regexpem k sedu... viz. man sed :) treba vymazani vsech HTML tagu by se dalo udelat pres sed -e "s/<[^<>]*>//g" soubor.html pak je jeste potreba smazat prazdny radky (treba pres g/^ *$//g ) vyextrahovat treba jen <a href...> neni problem, da se to udelat taky pres regexpy a napr. perl - znouza - -- At a higher altitude with flag unfurled We reached the dizzy heights of that dreamed of world... --