Logo Universal Dependencies

Universal Dependencies: Formát CoNLL-U

 • přípona: .conllu

Typy řádků

Prázdný řádek

Odděluje jednotlivé věty.

Řádek komentáře

Začíná znakem # (hash).
Obsahuje metadata.

sent_id

 • povinný
 • ID věty
 • jedinečné v rámci treebanku

text

 • povinný
 • text věty

newdoc

 • volitelný
 • začátek nového dokumentu

Další volitelné atributy

 • translit
 • text_<lang_code>

Řádek tokenu

Začíná číslem.
Obsahuje anotaci pro daný token (slovo).

Rozdělen znakem tabelátoru na 10 sloupců:

ID

 • pořadí slova ve větě (např. 1)
 • nebo rozsah (např. 1-2) pro víceslovný token
 • nebo desetinné číslo mezi 0 a 1 pro prázdný token (např. 0.2)

FORM

FORM – daný formát slova (příp. interpunkce)

 • např. týká

LEMMA

LEMMA – Lemma nebo stem pro FORM

 • např. týkat

UPOS

UPOS – part-of-speech tag podle Universal Dependencies

 • např. VERB

XPOS

XPOS – 

 • (volitelně) part-of-speech tag specifický pro daný jazyk
  • např. VB-S---3P-AA---
 • from a traditional, more fine-grained tagset
  • treebank-specific documentation should define a mapping from XPOS to UPOS values 
 • _ (znak podtržítka) pokud není tag dostupný

FEATS

FEATS – 

 • Seznam mofrologických features podle Universal feature nebo from a defined language-specific extension
  • např. Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Polarity=Pos|Tense=Pres|VerbForm=Fin|Voice=Act nebo Case=Acc,Dat
 • _ (znak podtržítka) pokud není dostupný

HEAD

HEAD – Head pro dané slovo (ID) nebo 0

 • např. 12

DEPREL

DEPREL – Vztah k HEAD (root iff HEAD = 0) or a defined language-specific subtype of one

 • např. advcl

DEPS

DEPS – Enhanced dependency graph in the form of a list of head-deprel pairs.

 • např. 12:advcl

MISC

Další různé anotace

Příklad

# newdoc id = n01001
# sent_id = n01001011
# text = „V tomto procesu předávání moci se ve Spojených Státech mnoho děje poprvé, což se týká především digitálních prostředků, ovšem poklidnost předávání moci je tradiční,“ napsala Obamova zvláštní asistentka Kori Schulman v pondělí ve svém blogu.
# orig_file_sentence test001#1
# text_en = “While much of the digital transition is unprecedented in the United States, the peaceful transition of power is not,” Obama special assistant Kori Schulman wrote in a blog post Monday.
1 „ " PUNCT Z:-------------  _ 12 punct 12:punct  SpaceAfter=No
2 V v ADP  RR--6----------  AdpType=Prep|Case=Loc 4 case  4:case LId=v-1
3 tomto tento DET  PDZS6----------  Case=Loc|Gender=Masc,Neut|Number=Sing|PronType=Dem 4 det  4:det _
4 procesu  proces NOUN  NNIS6-----A----  Animacy=Inan|Case=Loc|Gender=Masc|Number=Sing|Polarity=Pos 12 obl  12:obl:v:loc  _
5 předávání předávání NOUN  NNNS2-----A----  Case=Gen|Gender=Neut|Number=Sing|Polarity=Pos 4 nmod  4:nmod:gen LId=předávání-3|LGloss=(někomu_něco)|LDeriv=předat-3
6 moci  moc  NOUN  NNFS2-----A----  Case=Gen|Gender=Fem|Number=Sing|Polarity=Pos  5 nmod  5:nmod:gen LId=moc-1|LGloss=(nad_někým;_politická,_vojenská;_plná,...)
7 se se PRON  P7-X4----------  Case=Acc|PronType=Prs|Reflex=Yes|Variant=Short 12 expl:pv  12:expl:pv LGloss=(zvr._zájmeno/částice)
8 ve v ADP  RV--6----------  AdpType=Voc|Case=Loc  10 case  10:case  LId=v-1
9 Spojených spojený  ADJ  AAIP6----1A----  Animacy=Inan|Case=Loc|Degree=Pos|Gender=Masc|Number=Plur|Polarity=Pos 10 amod  10:amod  LDeriv=spojit
10 Státech  stát  NOUN  NNIP6-----A----  Animacy=Inan|Case=Loc|Gender=Masc|Number=Plur|Polarity=Pos 12 obl  12:obl:v:loc  LId=stát-1|LGloss=(státní_útvar)
11 mnoho mnoho DET  Ca--1----------  Case=Nom|NumType=Card|PronType=Ind 12 nsubj 12:nsubj  LId=mnoho-1
12 děje  dít  VERB  VB-S---3P-AA---  Mood=Ind|Number=Sing|Person=3|Polarity=Pos|Tense=Pres|VerbForm=Fin|Voice=Act  30 ccomp 30:ccomp  LId=dít-1|LGloss=(dít_se)
13 poprvé poprvé ADV  Cv-------------  NumType=Ord  12 advmod 12:advmod SpaceAfter=No
14 , , PUNCT Z:-------------  _ 17 punct 17:punct  _
15 což  což  PRON  PE--1----------  Case=Nom|PronType=Rel 17 nsubj 17:nsubj  LId=což-1
16 se se PRON  P7-X4----------  Case=Acc|PronType=Prs|Reflex=Yes|Variant=Short 17 expl:pv  17:expl:pv LGloss=(zvr._zájmeno/částice)
17 týká  týkat VERB  VB-S---3P-AA---  Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Polarity=Pos|Tense=Pres|VerbForm=Fin|Voice=Act  12 advcl 12:advcl  _
18 především především ADV  Db-------------  _ 20 advmod:emph  20:advmod:emph LId=především-1
19 digitálních  digitální ADJ  AAIP2----1A----  Animacy=Inan|Case=Gen|Degree=Pos|Gender=Masc|Number=Plur|Polarity=Pos 20 amod  20:amod  _
20 prostředků prostředek NOUN  NNIP2-----A----  Animacy=Inan|Case=Gen|Gender=Masc|Number=Plur|Polarity=Pos 17 obl:arg  17:obl:arg:gen SpaceAfter=No|LId=prostředek-2|LGloss=(způsob,_nástroj)
21 , , PUNCT Z:-------------  _ 27 punct 27:punct  _
22 ovšem ovšem CCONJ TT-------------  _ 27 cc 27:cc _
23 poklidnost poklidnost NOUN  NNFS1-----A----  Case=Nom|Gender=Fem|Number=Sing|Polarity=Pos  27 nsubj 27:nsubj  LDeriv=poklidný
24 předávání předávání NOUN  NNNS2-----A----  Case=Gen|Gender=Neut|Number=Sing|Polarity=Pos 23 nmod  23:nmod:gen  LId=předávání-3|LGloss=(někomu_něco)|LDeriv=předat-3
25 moci  moc  NOUN  NNFS2-----A----  Case=Gen|Gender=Fem|Number=Sing|Polarity=Pos  24 nmod  24:nmod:gen  LId=moc-1|LGloss=(nad_někým;_politická,_vojenská;_plná,...)
26 je být  AUX  VB-S---3P-AA---  Mood=Ind|Number=Sing|Person=3|Polarity=Pos|Tense=Pres|VerbForm=Fin|Voice=Act  27 cop  27:cop _
27 tradiční  tradiční  ADJ  AAFS1----1A----  Case=Nom|Degree=Pos|Gender=Fem|Number=Sing|Polarity=Pos  12 conj  12:conj|30:ccomp  SpaceAfter=No
28 , , PUNCT Z:-------------  _ 12 punct 12:punct  SpaceAfter=No
29 “ " PUNCT Z:-------------  _ 12 punct 12:punct  _
30 napsala  napsat VERB  VpQW---XR-AA---  Gender=Fem,Neut|Number=Plur,Sing|Polarity=Pos|Tense=Past|VerbForm=Part|Voice=Act  0 root  0:root _
31 Obamova  Obamův ADJ  AUFS1M---------  Case=Nom|Gender=Fem|Gender[psor]=Masc|NameType=Sur|Number=Sing|Poss=Yes  33 amod  33:amod  LDeriv=Obama
32 zvláštní  zvláštní  ADJ  AAFS1----1A----  Case=Nom|Degree=Pos|Gender=Fem|Number=Sing|Polarity=Pos  33 amod  33:amod  _
33 asistentka asistentka NOUN  NNFS1-----A----  Case=Nom|Gender=Fem|Number=Sing|Polarity=Pos  30 nsubj 30:nsubj  LDeriv=asistent
34 Kori  Kori  PROPN NNXXX-----A----  NameType=Giv|Polarity=Pos 33 nmod  33:nmod  _
35 Schulman  Schulman  PROPN NNFS1-----A----  Case=Nom|Gender=Fem|NameType=Sur|Number=Sing|Polarity=Pos 34 flat  34:flat  _
36 v v ADP  RR--4----------  AdpType=Prep|Case=Acc 37 case  37:case  LId=v-1
37 pondělí  pondělí  NOUN  NNNS4-----A----  Case=Acc|Gender=Neut|Number=Sing|Polarity=Pos 30 obl  30:obl:v:acc  _
38 ve v ADP  RV--6----------  AdpType=Voc|Case=Loc  40 case  40:case  LId=v-1
39 svém  svůj  DET  P8ZS6----------  Case=Loc|Gender=Masc,Neut|Number=Sing|Poss=Yes|PronType=Prs|Reflex=Yes 40 det  40:det LId=svůj-1|LGloss=(přivlast.)
40 blogu blog  NOUN  NNIS6-----A----  Animacy=Inan|Case=Loc|Gender=Masc|Number=Sing|Polarity=Pos 30 obl  30:obl:v:loc  SpaceAfter=No
41 . . PUNCT Z:-------------  _ 30 punct 30:punct  _

Zdroje:

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *