Tokenizace a rozdělování slov
- slova jsou oddělena prázdné znaky
- výjimky:
- prázdný znak oddělující číslice v čísle (
1 000 000
– 1 token)
- prázdný znak oddělující číslice v čísle (
- výjimky:
- mnoho interpunkčních znamének je připojeno k sousednímu slovu
- tokenize them as separate tokens (words)
- např:
česko-slovenský
– 3 tokenyatd.
– 2 tokeny
- např:
- tokenize them as separate tokens (words)
- existují uzavřené třídy (closed classes of contractions) se kterými je zacházeno jako víceslovné tokeny a jsou rozdělené na jednotlivá syntaktická slova (
kdybych
=když
+bych
)
Morfologie
Tagy
Více na list of Czech POS tags and Czech features.
- čeština používá všech 17 universal POS kategorií
- more than 70 word types are tagged PART
- TODO: This is a legacy of an existing Czech morphological analyzer and many of these words should probably belong to another category in UD; however, the exact list has yet to be worked out. viz https://universaldependencies.org/cs/index.html
- more than 70 word types are tagged PART