NLP: Seznam jazykových korpusů

CNEC – Czech Named Entity Corpus

  • Web projektu | Korpus ke stažení
  • Ústav formální a aplikované lingvistiky, Univerzita Karlova
  • korpus 8 993 českých vět obsahující 35 220 manuálně pojmenovaných entit, klasifikovaných podle dvouúrovňové hierarchie 46 pojmenovaných entit
  • ???information extraction – typy slov ve větě (podmět a přísudek)

CZES corpus