NLP
- information extraction systems
- natural language understanding systems
- NLP is a subfield of Artificial Intelligence and is concerned with interactions between computers and human languages
- NLP is the process of analyzing, understanding, and deriving meaning from human languages for computers
K čemu slouží NLP
NLP dokáže odpovědět na otázky:
- What’s text about?
- What do the words mean in context?
- Who is doing what to whom?
- What companies and products are mentioned?
- Which texts are similar to each other?
- pre-process text for deep learning
- Textual data on internet is decreasing gradually
Funkce
- tokenizace (tokenization) – rozdělení textu na jednotlivá slova, interpunkční znaménka apod., tedy tzv.
tokeny
. - Slovní druhy (Part-of-speech (POS) Tagging) – určení slovních druhů (podstatné jméno, sloveso apod.).
- Větné členy (Dependency Parsing) – určení větných členů (podmět, přísudek, předmět apod.)
- Lemmatization – určení základní podoby slov (…)
- Sentence Boundary Detection (SBD) – Finding and segmenting individual sentences.
- Pojmenování entit (Named Entity Recognition – NER) – určení reálných objektů (osoby, společnosti, místa)
- Entity Linking (EL) – Disambiguating textual entities to unique identifiers in a Knowledge Base.
- Similarity – porovnání slov, frází, vět či celých dokumentů mezi sebou
- klasifikace textu (text classification) – určení typů dokumentů, označení dokumentů štítky
- Rule-based Matching – Finding sequences of tokens based on their texts and linguistic annotations, similar to regular expressions.
Statistické modely (Statistical models)
Určité funkce NLP vyžadují použití tzv. statických modelů.
jde o natrénované modely pro dané jazyky.
Např. pro určení slovích druhů.
Statistické modely se skládají z komponent:
- Binary weights – pro odhad anotací z kontextu (slovní druhy, větné členy a pojmenování entit)
- Lexical entries in the vocabulary – slova a jejich, na kontextu nezávislé atributy (tvar (shape) či pravopis (spelling))
- Data files – lemmatization rules and lookup tables
- Word vectors, i.e. multi-dimensional meaning representations of words that let you determine how similar they are to each other.