Logo Universal Dependencies

Universal Dependencies: Czech

Tokenizace a rozdělování slov

  • slova jsou oddělena prázdné znaky
    • výjimky:
      • prázdný znak oddělující číslice v čísle (1 000 000 – 1 token)
  • mnoho interpunkčních znamének je připojeno k sousednímu slovu
    • tokenize them as separate tokens (words)
      • např:
        • česko-slovenský – 3 tokeny
        • atd. – 2 tokeny
  • existují uzavřené třídy (closed classes of contractions) se kterými je zacházeno jako víceslovné tokeny a jsou rozdělené na jednotlivá syntaktická slova (kdybych = když + bych)

Morfologie

Tagy

Více na list of Czech POS tags and Czech features.

  • čeština používá všech 17 universal POS kategorií
    • more than 70 word types are tagged PART 
      • TODO: This is a legacy of an existing Czech morphological analyzer and many of these words should probably belong to another category in UD; however, the exact list has yet to be worked out. viz https://universaldependencies.org/cs/index.html
  •  

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *