- přípona:
.conllu
Typy řádků
Prázdný řádek
Odděluje jednotlivé věty.
Řádek komentáře
Začíná znakem #
(hash).
Obsahuje metadata.
sent_id
- povinný
- ID věty
- jedinečné v rámci treebanku
text
- povinný
- text věty
newdoc
- volitelný
- začátek nového dokumentu
Další volitelné atributy
- translit
- text_<lang_code>
Řádek tokenu
Začíná číslem.
Obsahuje anotaci pro daný token (slovo).
Rozdělen znakem tabelátoru na 10 sloupců:
ID
- pořadí slova ve větě (např.
1
) - nebo rozsah (např.
1-2
) pro víceslovný token - nebo desetinné číslo mezi 0 a 1 pro prázdný token (např.
0.2
)
FORM
FORM
– daný formát slova (příp. interpunkce)
- např.
týká
LEMMA
LEMMA
– Lemma nebo stem pro FORM
- např.
týkat
UPOS
UPOS
– part-of-speech tag podle Universal Dependencies
- např.
VERB
XPOS
XPOS
–
- (volitelně) part-of-speech tag specifický pro daný jazyk
- např.
VB-S---3P-AA---
- např.
- from a traditional, more fine-grained tagset
- treebank-specific documentation should define a mapping from XPOS to UPOS values
_
(znak podtržítka) pokud není tag dostupný
FEATS
FEATS
–
- Seznam mofrologických features podle Universal feature nebo from a defined language-specific extension
- např.
Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Polarity=Pos|Tense=Pres|VerbForm=Fin|Voice=Act
neboCase=Acc,Dat
- např.
_
(znak podtržítka) pokud není dostupný
HEAD
HEAD
– Head pro dané slovo (ID) nebo 0
- např.
12
DEPREL
DEPREL
– Vztah k HEAD (root iff HEAD = 0) or a defined language-specific subtype of one
- např.
advcl
DEPS
DEPS
– Enhanced dependency graph in the form of a list of head-deprel pairs.
- např.
12:advcl
MISC
Další různé anotace
- pokud za tokenem nenásleduje mezera:
SpaceAfter=No
- více na Other Miscellaneous Attributes
Příklad
# newdoc id = n01001 # sent_id = n01001011 # text = „V tomto procesu předávání moci se ve Spojených Státech mnoho děje poprvé, což se týká především digitálních prostředků, ovšem poklidnost předávání moci je tradiční,“ napsala Obamova zvláštní asistentka Kori Schulman v pondělí ve svém blogu. # orig_file_sentence test001#1 # text_en = “While much of the digital transition is unprecedented in the United States, the peaceful transition of power is not,” Obama special assistant Kori Schulman wrote in a blog post Monday. 1 „ " PUNCT Z:------------- _ 12 punct 12:punct SpaceAfter=No 2 V v ADP RR--6---------- AdpType=Prep|Case=Loc 4 case 4:case LId=v-1 3 tomto tento DET PDZS6---------- Case=Loc|Gender=Masc,Neut|Number=Sing|PronType=Dem 4 det 4:det _ 4 procesu proces NOUN NNIS6-----A---- Animacy=Inan|Case=Loc|Gender=Masc|Number=Sing|Polarity=Pos 12 obl 12:obl:v:loc _ 5 předávání předávání NOUN NNNS2-----A---- Case=Gen|Gender=Neut|Number=Sing|Polarity=Pos 4 nmod 4:nmod:gen LId=předávání-3|LGloss=(někomu_něco)|LDeriv=předat-3 6 moci moc NOUN NNFS2-----A---- Case=Gen|Gender=Fem|Number=Sing|Polarity=Pos 5 nmod 5:nmod:gen LId=moc-1|LGloss=(nad_někým;_politická,_vojenská;_plná,...) 7 se se PRON P7-X4---------- Case=Acc|PronType=Prs|Reflex=Yes|Variant=Short 12 expl:pv 12:expl:pv LGloss=(zvr._zájmeno/částice) 8 ve v ADP RV--6---------- AdpType=Voc|Case=Loc 10 case 10:case LId=v-1 9 Spojených spojený ADJ AAIP6----1A---- Animacy=Inan|Case=Loc|Degree=Pos|Gender=Masc|Number=Plur|Polarity=Pos 10 amod 10:amod LDeriv=spojit 10 Státech stát NOUN NNIP6-----A---- Animacy=Inan|Case=Loc|Gender=Masc|Number=Plur|Polarity=Pos 12 obl 12:obl:v:loc LId=stát-1|LGloss=(státní_útvar) 11 mnoho mnoho DET Ca--1---------- Case=Nom|NumType=Card|PronType=Ind 12 nsubj 12:nsubj LId=mnoho-1 12 děje dít VERB VB-S---3P-AA--- Mood=Ind|Number=Sing|Person=3|Polarity=Pos|Tense=Pres|VerbForm=Fin|Voice=Act 30 ccomp 30:ccomp LId=dít-1|LGloss=(dít_se) 13 poprvé poprvé ADV Cv------------- NumType=Ord 12 advmod 12:advmod SpaceAfter=No 14 , , PUNCT Z:------------- _ 17 punct 17:punct _ 15 což což PRON PE--1---------- Case=Nom|PronType=Rel 17 nsubj 17:nsubj LId=což-1 16 se se PRON P7-X4---------- Case=Acc|PronType=Prs|Reflex=Yes|Variant=Short 17 expl:pv 17:expl:pv LGloss=(zvr._zájmeno/částice) 17 týká týkat VERB VB-S---3P-AA--- Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Polarity=Pos|Tense=Pres|VerbForm=Fin|Voice=Act 12 advcl 12:advcl _ 18 především především ADV Db------------- _ 20 advmod:emph 20:advmod:emph LId=především-1 19 digitálních digitální ADJ AAIP2----1A---- Animacy=Inan|Case=Gen|Degree=Pos|Gender=Masc|Number=Plur|Polarity=Pos 20 amod 20:amod _ 20 prostředků prostředek NOUN NNIP2-----A---- Animacy=Inan|Case=Gen|Gender=Masc|Number=Plur|Polarity=Pos 17 obl:arg 17:obl:arg:gen SpaceAfter=No|LId=prostředek-2|LGloss=(způsob,_nástroj) 21 , , PUNCT Z:------------- _ 27 punct 27:punct _ 22 ovšem ovšem CCONJ TT------------- _ 27 cc 27:cc _ 23 poklidnost poklidnost NOUN NNFS1-----A---- Case=Nom|Gender=Fem|Number=Sing|Polarity=Pos 27 nsubj 27:nsubj LDeriv=poklidný 24 předávání předávání NOUN NNNS2-----A---- Case=Gen|Gender=Neut|Number=Sing|Polarity=Pos 23 nmod 23:nmod:gen LId=předávání-3|LGloss=(někomu_něco)|LDeriv=předat-3 25 moci moc NOUN NNFS2-----A---- Case=Gen|Gender=Fem|Number=Sing|Polarity=Pos 24 nmod 24:nmod:gen LId=moc-1|LGloss=(nad_někým;_politická,_vojenská;_plná,...) 26 je být AUX VB-S---3P-AA--- Mood=Ind|Number=Sing|Person=3|Polarity=Pos|Tense=Pres|VerbForm=Fin|Voice=Act 27 cop 27:cop _ 27 tradiční tradiční ADJ AAFS1----1A---- Case=Nom|Degree=Pos|Gender=Fem|Number=Sing|Polarity=Pos 12 conj 12:conj|30:ccomp SpaceAfter=No 28 , , PUNCT Z:------------- _ 12 punct 12:punct SpaceAfter=No 29 “ " PUNCT Z:------------- _ 12 punct 12:punct _ 30 napsala napsat VERB VpQW---XR-AA--- Gender=Fem,Neut|Number=Plur,Sing|Polarity=Pos|Tense=Past|VerbForm=Part|Voice=Act 0 root 0:root _ 31 Obamova Obamův ADJ AUFS1M--------- Case=Nom|Gender=Fem|Gender[psor]=Masc|NameType=Sur|Number=Sing|Poss=Yes 33 amod 33:amod LDeriv=Obama 32 zvláštní zvláštní ADJ AAFS1----1A---- Case=Nom|Degree=Pos|Gender=Fem|Number=Sing|Polarity=Pos 33 amod 33:amod _ 33 asistentka asistentka NOUN NNFS1-----A---- Case=Nom|Gender=Fem|Number=Sing|Polarity=Pos 30 nsubj 30:nsubj LDeriv=asistent 34 Kori Kori PROPN NNXXX-----A---- NameType=Giv|Polarity=Pos 33 nmod 33:nmod _ 35 Schulman Schulman PROPN NNFS1-----A---- Case=Nom|Gender=Fem|NameType=Sur|Number=Sing|Polarity=Pos 34 flat 34:flat _ 36 v v ADP RR--4---------- AdpType=Prep|Case=Acc 37 case 37:case LId=v-1 37 pondělí pondělí NOUN NNNS4-----A---- Case=Acc|Gender=Neut|Number=Sing|Polarity=Pos 30 obl 30:obl:v:acc _ 38 ve v ADP RV--6---------- AdpType=Voc|Case=Loc 40 case 40:case LId=v-1 39 svém svůj DET P8ZS6---------- Case=Loc|Gender=Masc,Neut|Number=Sing|Poss=Yes|PronType=Prs|Reflex=Yes 40 det 40:det LId=svůj-1|LGloss=(přivlast.) 40 blogu blog NOUN NNIS6-----A---- Animacy=Inan|Case=Loc|Gender=Masc|Number=Sing|Polarity=Pos 30 obl 30:obl:v:loc SpaceAfter=No 41 . . PUNCT Z:------------- _ 30 punct 30:punct _