Jazykové korpusy


Typy korpusů
Korpusy Eridanu
Technické řešení
Statistické moduly
Seznamy slov
Odkazy


Typy korpusů

Korpusy Eridanu

    Zpracování jazykových korpusů je jedním ze statistických modulů Eridanu. Programové vybavení je vlastní. V současné době jsou zpracovány korpusy pro češtinu, angličtinu, francouzštinu, němčinu, ruštinu a slovenštinu.

    Korpusy pro jednotlivé jazyky jsou navzájem nezávislé. Vstupní soubory jsou většinou získávány na Internetu. Vybírají se pouze soubory editovatelné, aby bylo možno v nich opravovat chyby. Soubory se uspořádávají do skupin, zvaných kolekce. Ty se fultextově indexují, výstupem je adresář zvaný index. Jeho obsahem jsou:

    Kombinace korpusů (statisticky získaných znalostí) a Znalostní databáze (explicitních znalostí) je velmi produktivní:
Technické řešení

Uložení dokumentů

Zpracování korpusů
Statistické moduly Seznamy slov

http://www.oficialni.cz/slova/

Je cenné, pokud jsou opatřeny frenkvenčními údaji.

Jsou důležité pro hlubší práci s jazykem - lze jimi testovat pokrytí morfologie a slovníků a určit slova, která by bylo vhodné do morfologie a slovníků dopracovat.

Seznamy homonym smíchaně pro všechny jazyky - budou ve zvláštním souboru a budou sloužit:

Máme je pro:
Ispell soubory

Morpho seznamy

Tyto seznamy:

Typy slov

Slova gramatická - tedy číslovky, zájmena, předložky, spojky a částice

Viz též glo_syntax_words_CS
           glo_syntax_words_EN
           glo_syntax_words_DE
           glo_syntax_words_FR
           glo_syntax_words_IT
           glo_syntax_words_NL
           glo_syntax_words_RO
           glo_syntax_words_RU
           glo_syntax_words_SV
a Česká gramatická slova

Slova obsahová - tedy podstatná jména, přídavná jména, slovesa, příslovce a citoslovce

Odkazy