Комплексный анализ НЛП.  Привет, ребята, добро пожаловать на этот технический…
ДомДом > Блог > Комплексный анализ НЛП. Привет, ребята, добро пожаловать на этот технический…

Комплексный анализ НЛП. Привет, ребята, добро пожаловать на этот технический…

Jul 16, 2023

अंश

Следовать

--

Слушать

Делиться

Привет ребята, добро пожаловать в этот технический блог

Таким образом, полная форма НЛП — это обработка естественного языка.

Небольшое развитие контекста о его прошлом

«Разработка обработки естественного языка началась в 1940-х годах, после Второй мировой войны. В то время люди осознали важность перевода с одного языка на другой и надеялись создать машину, которая могла бы выполнять такой перевод автоматически. Однако задача оказалась явно не такой простой, как люди сначала представляли»

«В 1980-х годах произошел сдвиг в сторону статистического НЛП, который использует алгоритмы машинного обучения для изучения статистических взаимосвязей между словами и фразами. Статистические системы НЛП более надежны и масштабируемы, чем системы, основанные на правилах, и они использовались для достижения значительных результатов в различных задачах НЛП, таких как машинный перевод, распознавание речи и обобщение текста».

Зачем нам на самом деле нужно НЛП

Обработка естественного языка (НЛП) помогает компьютерам общаться с людьми на их родном языке и масштабировать другие языковые задачи. Однако человеческая речь гораздо сложнее, чем думает большинство людей. Существуют правила, такие как орфография и грамматика, но то, как мы интерпретируем речь и текст, гораздо менее четко определено. Например, как узнать, что человек саркастичен? На человеческом языке слова могут говорить одно, но контекст и тон могут заставить эти слова означать что-то другое. Людям требуется полжизни, чтобы изучить тонкие нюансы языка. Итак, НЛП становится спасителем жизни и прекрасно справляется с этим. НЛП позволяет компьютерам понимать естественный язык так же, как это делают люди. Он использует искусственный интеллект для получения входных данных из реального мира и их обработки таким образом, чтобы сделать их достаточно разумными для понимания компьютером.

Технические аспекты НЛП

Он включает в себя четыре основных этапа предварительной обработки данных.

Токенизация: на этом этапе текст разбивается на более мелкие части для работы, например, предложение можно разбить на слова.

Удаление стоп-слов:Из текста удаляются самые ненужные слова типачтобы, для и.

Лемматизация и стемминг: Это когда слова сводятся к их корневым формам для обработки. Например, Забота вернет Заботу, а работа вернет Работу.

Маркировка частей речи:Это когда слова маркируются в зависимости от того, какой частью речи они являются, например существительные, глаголы и прилагательные.

Обработка естественного языка : Это способность компьютерных программ понимать человеческий язык в том виде, в котором он произносится и пишется. Это компонент ИИ.

На первый взгляд это все, что касается этапов предварительной обработки данных. Теперь перейдем к алгоритмической части.

Он использует в основном два алгоритма

Система, основанная на правилах: следует специальным правилам, основанным на языке.

Подход машинного обучения : В этом подходе используются статические методы. Они выполняют задачи, основанные на обучении, как и некоторые традиционные алгоритмы машинного обучения.

Теперь давайте разберемся с этим через код, чтобы лучше понять.

Таким образом, целью проекта было объединить длинные абзацы в более компактный и релевантный текст.

Важными библиотеками здесь являются NLTK, text blob, spacy, sklearn и seaborn.

NLTK Fullform — это набор инструментов естественного языка, в который встроены все общие правила грамматики, позволяющие машине понимать текст. человеческий контекст

Я извлек корпус, используя метод веб-скрапинга, а затем очистил текст, используя некоторые традиционные методы.

Я извлек первую нейтральную статью из Википедии, а затем несколько статей о преимуществах электромобилей. Я извлек статью о недостатках электромобиля.

Вот некоторые из способов, которыми я очистил данные

Я назвал корпус из трех статей «combate_corpus» и удалил пробелы и некоторые ненужные данные.

Затем я импортировал файл nltk. токенизировать, чтобы удалить стоп-слова