some contents improving and fixing (#32205)
This commit is contained in:
@ -2,18 +2,19 @@
|
|||||||
title: Introduction to NLP
|
title: Introduction to NLP
|
||||||
localeTitle: Введение в НЛП
|
localeTitle: Введение в НЛП
|
||||||
---
|
---
|
||||||
## Контур
|
## Содержание
|
||||||
|
|
||||||
* мотивация
|
* Мотивация
|
||||||
* Случаи применения
|
* Примеры использования
|
||||||
|
* Как работает обработка естественного языка
|
||||||
* Языковое моделирование
|
* Языковое моделирование
|
||||||
* Дальнейшие чтения
|
* Что читать дальше
|
||||||
|
|
||||||
## мотивация
|
## Мотивация
|
||||||
|
|
||||||
Мы всегда мечтали, чтобы машины поняли наш язык. С тех пор, как Хомский придумал бесплатные грамматики контекста, лингвисты хотели придумать решения для понимания контекстно-зависимых грамматик. Поэтому естественно, что академический ученик развился вокруг этой темы.
|
Мы всегда мечтали, чтобы машины поняли наш язык. С тех пор, как Хомский придумал бесплатные грамматики контекста, лингвисты хотели придумать решения для понимания контекстно-зависимых грамматик. Поэтому естественно, что академический ученик развился вокруг этой темы.
|
||||||
|
|
||||||
## Случаи применения
|
## Примеры использования
|
||||||
|
|
||||||
Люди использовали эту концепцию во множестве интересных приложений. Немногие из интересных включают Google Translate, Siri или Gmail ответы автоответ. Тем не менее, люди работают над тем, как улучшить эти прогнозы, и ведутся современные исследования в отношении того, как заставить машины отвечать на вопросы более надежно.
|
Люди использовали эту концепцию во множестве интересных приложений. Немногие из интересных включают Google Translate, Siri или Gmail ответы автоответ. Тем не менее, люди работают над тем, как улучшить эти прогнозы, и ведутся современные исследования в отношении того, как заставить машины отвечать на вопросы более надежно.
|
||||||
|
|
||||||
@ -25,7 +26,7 @@ localeTitle: Введение в НЛП
|
|||||||
|
|
||||||
Для тех, кто хочет попасть в эту область, я намерен начать с 2 концепций.
|
Для тех, кто хочет попасть в эту область, я намерен начать с 2 концепций.
|
||||||
|
|
||||||
#### токенизации
|
#### Токенизации
|
||||||
|
|
||||||
Здесь задача звучит просто. Учитывая корпус (набор предложений), генерируйте отдельные токены (значащие слова). Нам нужно обозначить слова и предложения. Первый подход, который приходит на ум, состоит в том, чтобы разделить на период и пространство. Это, однако, не работает. Подумайте, мистер Джон. Являются ли предложения «г-н» и «Иоанн» 2? Конечно нет. Теперь рассмотрим дефис разделенные слова. Вы хотите разбить их на 2 слова или на одно слово? Эти сложные вопросы делают задачу токенизации не столь простой. Идем дальше и выбираем корпус из nltk и создаем собственное регулярное выражение для вашего собственного токенизатора!
|
Здесь задача звучит просто. Учитывая корпус (набор предложений), генерируйте отдельные токены (значащие слова). Нам нужно обозначить слова и предложения. Первый подход, который приходит на ум, состоит в том, чтобы разделить на период и пространство. Это, однако, не работает. Подумайте, мистер Джон. Являются ли предложения «г-н» и «Иоанн» 2? Конечно нет. Теперь рассмотрим дефис разделенные слова. Вы хотите разбить их на 2 слова или на одно слово? Эти сложные вопросы делают задачу токенизации не столь простой. Идем дальше и выбираем корпус из nltk и создаем собственное регулярное выражение для вашего собственного токенизатора!
|
||||||
|
|
||||||
@ -33,6 +34,6 @@ localeTitle: Введение в НЛП
|
|||||||
|
|
||||||
Следующей задачей является создание языковой модели. Здесь мы рассмотрим предположение, что n-е слово зависит только от предыдущих n-1 слов. Наиболее часто используются 2-граммовые и 3-граммовые модели. Чтобы построить 3-граммовую модель, просто объедините 3 жетона и подсчитайте их частоту в корпусе. Теперь вы готовы предсказать вероятность группы из трех слов!
|
Следующей задачей является создание языковой модели. Здесь мы рассмотрим предположение, что n-е слово зависит только от предыдущих n-1 слов. Наиболее часто используются 2-граммовые и 3-граммовые модели. Чтобы построить 3-граммовую модель, просто объедините 3 жетона и подсчитайте их частоту в корпусе. Теперь вы готовы предсказать вероятность группы из трех слов!
|
||||||
|
|
||||||
## Дальнейшие чтения
|
## Что читать дальше
|
||||||
|
|
||||||
Область НЛП огромна. Если вы прочитали это далеко и выполнили вышеизложенное, вам это, безусловно, понравилось. Продолжайте читать книгу Юрафского, чтобы узнать еще несколько новых концепций. Помните, что важно их реализовать.
|
Область НЛП огромна. Если вы прочитали это далеко и выполнили вышеизложенное, вам это, безусловно, понравилось. Продолжайте читать книгу Юрафского, чтобы узнать еще несколько новых концепций. Помните, что важно их реализовать.
|
Reference in New Issue
Block a user