NLP

NLP

  • information extraction systems
  • natural language understanding systems
  • NLP is a subfield of Artificial Intelligence and is concerned with interactions between computers and human languages
  • NLP is the process of analyzing, understanding, and deriving meaning from human languages for computers

K čemu slouží NLP

NLP dokáže odpovědět na otázky:

  • What’s text about?
  • What do the words mean in context?
  • Who is doing what to whom?
  • What companies and products are mentioned?
  • Which texts are similar to each other?
  • pre-process text for deep learning
  • Textual data on internet is decreasing gradually

Funkce

  • tokenizace (tokenization) – rozdělení textu na jednotlivá slova, interpunkční znaménka apod., tedy tzv. tokeny.
  • Slovní druhy (Part-of-speech (POS) Tagging) – určení slovních druhů (podstatné jméno, sloveso apod.).
  • Větné členy (Dependency Parsing) – určení větných členů (podmět, přísudek, předmět apod.)
  • Lemmatization – určení základní podoby slov ()
  • Sentence Boundary Detection (SBD) – Finding and segmenting individual sentences.
  • Pojmenování entit (Named Entity Recognition – NER) – určení reálných objektů (osoby, společnosti, místa)
  • Entity Linking (EL) – Disambiguating textual entities to unique identifiers in a Knowledge Base.
  • Similarity – porovnání slov, frází, vět či celých dokumentů mezi sebou
  • klasifikace textu (text classification) – určení typů dokumentů, označení dokumentů štítky
  • Rule-based Matching – Finding sequences of tokens based on their texts and linguistic annotations, similar to regular expressions.

Statistické modely (Statistical models)

Určité funkce NLP vyžadují použití tzv. statických modelů. 
jde o natrénované modely pro dané jazyky.

Např. pro určení slovích druhů.

Statistické modely se skládají z komponent:

  • Binary weights – pro odhad anotací z kontextu (slovní druhy, větné členy a pojmenování entit)
  • Lexical entries in the vocabulary – slova a jejich, na kontextu nezávislé atributy (tvar (shape) či pravopis (spelling))
  • Data files – lemmatization rules and lookup tables
  • Word vectors, i.e. multi-dimensional meaning representations of words that let you determine how similar they are to each other.
  •  

 

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *