Комплексный анализ НЛП. Привет, ребята, добро пожаловать на этот технический…
अंश
Следовать
--
Слушать
Делиться
Привет ребята, добро пожаловать в этот технический блог
Таким образом, полная форма НЛП — это обработка естественного языка.
Небольшое развитие контекста о его прошлом
«Разработка обработки естественного языка началась в 1940-х годах, после Второй мировой войны. В то время люди осознали важность перевода с одного языка на другой и надеялись создать машину, которая могла бы выполнять такой перевод автоматически. Однако задача оказалась явно не такой простой, как люди сначала представляли»
«В 1980-х годах произошел сдвиг в сторону статистического НЛП, который использует алгоритмы машинного обучения для изучения статистических взаимосвязей между словами и фразами. Статистические системы НЛП более надежны и масштабируемы, чем системы, основанные на правилах, и они использовались для достижения значительных результатов в различных задачах НЛП, таких как машинный перевод, распознавание речи и обобщение текста».
Зачем нам на самом деле нужно НЛП
Обработка естественного языка (НЛП) помогает компьютерам общаться с людьми на их родном языке и масштабировать другие языковые задачи. Однако человеческая речь гораздо сложнее, чем думает большинство людей. Существуют правила, такие как орфография и грамматика, но то, как мы интерпретируем речь и текст, гораздо менее четко определено. Например, как узнать, что человек саркастичен? На человеческом языке слова могут говорить одно, но контекст и тон могут заставить эти слова означать что-то другое. Людям требуется полжизни, чтобы изучить тонкие нюансы языка. Итак, НЛП становится спасителем жизни и прекрасно справляется с этим. НЛП позволяет компьютерам понимать естественный язык так же, как это делают люди. Он использует искусственный интеллект для получения входных данных из реального мира и их обработки таким образом, чтобы сделать их достаточно разумными для понимания компьютером.
Технические аспекты НЛП
Он включает в себя четыре основных этапа предварительной обработки данных.
Токенизация: на этом этапе текст разбивается на более мелкие части для работы, например, предложение можно разбить на слова.
Удаление стоп-слов:Из текста удаляются самые ненужные слова типачтобы, для и.
Лемматизация и стемминг: Это когда слова сводятся к их корневым формам для обработки. Например, Забота вернет Заботу, а работа вернет Работу.
Маркировка частей речи:Это когда слова маркируются в зависимости от того, какой частью речи они являются, например существительные, глаголы и прилагательные.
Обработка естественного языка : Это способность компьютерных программ понимать человеческий язык в том виде, в котором он произносится и пишется. Это компонент ИИ.
На первый взгляд это все, что касается этапов предварительной обработки данных. Теперь перейдем к алгоритмической части.
Он использует в основном два алгоритма
Система, основанная на правилах: следует специальным правилам, основанным на языке.
Подход машинного обучения : В этом подходе используются статические методы. Они выполняют задачи, основанные на обучении, как и некоторые традиционные алгоритмы машинного обучения.
Теперь давайте разберемся с этим через код, чтобы лучше понять.
Таким образом, целью проекта было объединить длинные абзацы в более компактный и релевантный текст.
Важными библиотеками здесь являются NLTK, text blob, spacy, sklearn и seaborn.
NLTK Fullform — это набор инструментов естественного языка, в который встроены все общие правила грамматики, позволяющие машине понимать текст. человеческий контекст
Я извлек корпус, используя метод веб-скрапинга, а затем очистил текст, используя некоторые традиционные методы.
Я извлек первую нейтральную статью из Википедии, а затем несколько статей о преимуществах электромобилей. Я извлек статью о недостатках электромобиля.
Вот некоторые из способов, которыми я очистил данные
Я назвал корпус из трех статей «combate_corpus» и удалил пробелы и некоторые ненужные данные.
Затем я импортировал файл nltk. токенизировать, чтобы удалить стоп-слова