Posted By: johanka (mama ma dve dema) on 'CZhelp'
Title:     Re: kombinace dvou slov
Date:      Tue Apr 20 09:26:09 2010

> Ahojda, 
> 
> zajimalo by me, zdali lze sehnat vsechny kombinace dvou slov o celkove delce
> X 
> znaku, kde X=6 nebo X=9. Znaky mohou byt s diakritikou. Priklad pro X=6 by 

Chapu to dobre tak, ze chces neco jako vygenerovat vsechny rezetce
delky N a pak overit, ktery z nich jsou (v cestine? nebo v jinym 
jazyce? nebo to ma bejt jazykove nezavisly?) validni, tj. splnujou
tu Tebou danou podminku, ze to je konkatenace dvou slov existujicich
v tom jazyce (vcetne sklonovani, casovani apod.)? A nebo to neni
jenom konkatenace, ale dvojice, ktera se v tom jazyce skutecne
spolecne pouziva ve vetsim nez malem mnozstvi?

Na to potrebujes slovnik danyho jazyka. Ten si nejsnaz vyrobis tak,
ze si postahujes mraky textu v tom jazyce (jednoduchym robotem prosmejdis
cz domenu, nebo treba jen webovej prostor nejakejch novin, blogu apod.,
nejak nahrubo vyhazis html kod, hlavicky, paticky), 
a z toho si ten slovnik vytahas. Nebo teda (nevim, jak presne ta uloha
zni) bud si vytahas unigramy (slova) a ty pak michas a vyjdou Ti
z toho treba kraviny, nebo bigramy (dve slova po sobe), no a pak to 
mas jasny, ze ano, v zivym jazyce se tohle vyskytuje a staci jen
pak vybrat ty, co splnujou tu dylku.

Zalezi samozrejme, jak moc velkou ztratovost/chybovost (ja nevim, jak 
se cesky rekne presicion a recall :)) si muzes dovolit, jestli Ti tenhle 
postup bude stacit. Pokud ne, tak holt more data :) a nebo pockat jeste
tak rok nebo dva a my pak releasnem tool, kterej to bude stahovat a
cistit daleko lepe nez nahrubo :)
                                               johanka

Search the boards