Autor: Robert Šípek
NLP: Seznam jazykových korpusů
CNEC – Czech Named Entity Corpus
- Web projektu | Korpus ke stažení
- Ústav formální a aplikované lingvistiky, Univerzita Karlova
- korpus 8 993 českých vět obsahující 35 220 manuálně pojmenovaných entit, klasifikovaných podle dvouúrovňové hierarchie 46 pojmenovaných entit
- ???information extraction – typy slov ve větě (podmět a přísudek)
CZES corpus
- články z novin a magazínů (1995–1998 a 2002)
- Ajka tagy
- Zdroje:
- Lindat: czes (ke stažení)
- sozbor:
czes.xdedupl.onioned.vert
- žádné tagy nevidím
- sozbor:
- sketchengine: Czes corpus
- Lindat: czes (ke stažení)