Список инструментов обработки естественного языка в отношении анализа настроений - какой из них вы рекомендуете [закрыто]

сначала извините за мой не очень идеальный английский ... я из Германии;)

Итак, для моего исследовательского проекта (бакалавриат) мне нужно проанализировать мнение твитов об определенных компаниях и брендах. Для этого мне нужно будет написать свою собственную программу / использовать какой-то модифицированный открытый исходный код (без API-интерфейсов - мне нужно понять, что происходит).

Ниже вы найдете список некоторых найденных мною приложений НЛП. Мой вопрос сейчас, какой и какой подход вы бы порекомендовали? А какой из них не требует долгих ночей корректировки кода?

Например: при просмотре твиттера для музыкального плеера & gt; iPod & lt; и кто-то пишет: «Это ужасный день, но, по крайней мере, мой iPod делает меня счастливым». или еще сложнее: «это ужасный день, но по крайней мере мой iPod его компенсирует»;

Какое программное обеспечение достаточно умное, чтобы понять, что основное внимание уделяется iPod, а не погоде?

Кроме того, какое программное обеспечение является масштабируемым / ресурсоэффективным (я хочу проанализировать несколько твитов и не хочу тратить тысячи долларов)?

Machine learning and data mining

Weka - это набор алгоритмов машинного обучения для интеллектуального анализа данных. Это одна из самых популярных систем классификации текста. Он содержит реализации самых разнообразных алгоритмов, включая наивные байесовские алгоритмы и машины опорных векторов (SVM, перечисленные в разделе SMO) [Примечание. Другие часто используемые реализации SVM, не относящиеся к Java, - это SVM-Light, LibSVM и SVMTorch]. Связанным проектом является Kea (алгоритм извлечения ключевой фразы) - алгоритм извлечения ключевых фраз из текстовых документов.

Apache Lucene Mahout - Проект инкубатора для создания масштабируемых распределенных реализаций распространенных алгоритмов машинного обучения поверх платформы Hadoop Map-Reduce.

NLP Tools

LingPipe - (технически не с открытым исходным кодом, см. ниже). Lingpipe Alias-I - это набор java-инструментов для лингвистической обработки текста, включая извлечение сущностей, разметку речи (pos), кластеризацию, классификацию и т. д. один из наиболее зрелых и широко используемых в отрасли наборов инструментов НЛП с открытым исходным кодом. Он известен своей скоростью, стабильностью и масштабируемостью. Одной из ее лучших функций является обширная коллекция хорошо написанных руководств, которые помогут вам начать работу. У них есть список ссылок на соревнования, как академических, так и промышленных инструментов. Обязательно ознакомьтесь с их блогом. LingPipe выпускается по бесплатной коммерческой лицензии, которая включает в себя исходный код, но технически не является «открытым исходным кодом».

OpenNLP - размещает различные инструменты NLP на основе Java, которые выполняют обнаружение предложений, токенизацию, маркировку части речи, разбивку на фрагменты и анализ, обнаружение именованных объектов и анализ параллельных ссылок с использованием пакета машинного обучения Maxent.

Stanford Parser and Part-of-Speech (POS) Tagger - Java-пакеты для разбора предложений и составления части речевых тегов из группы Stanford NLP. Он имеет реализации вероятностных синтаксических анализаторов естественного языка, как высокооптимизированных PCFG, так и лексизированных анализаторов зависимостей, и лексизированный анализатор PCFG. Он имеет полную лицензию GNU GPL.

OpenFST - Пакет для манипулирования весами конечных автоматов. Они часто используются для представления вероятностной модели. Они используются для моделирования текста для распознавания речи, исправления ошибок распознавания текста, машинного перевода и множества других задач. Библиотека была разработана сотрудниками Google Research и NYU. Это библиотека C ++, которая должна быть быстрой и масштабируемой.

NTLK - Инструментарий естественного языка - это инструмент для обучения и исследования классификации, кластеризации, разметки и анализа речи и многого другого. Он содержит набор учебных пособий и наборов данных для экспериментов. Он написан Стивеном Бердом из Мельбурнского университета.

Opinion Finder - Система, которая выполняет субъективный анализ, автоматически определяя, когда в тексте присутствуют мнения, настроения, спекуляции и другие частные состояния. В частности, OpinionFinder стремится идентифицировать субъективные предложения и отмечать различные аспекты субъективности в этих предложениях, включая источник (держатель) субъективности и слова, которые включены в фразы, выражающие позитивные или негативные чувства.

Tawlk/osae - Библиотека питонов для классификации настроений в социальных сетях. Конечная цель - создать простую библиотеку, которая «просто работает». Он должен иметь легкий барьер для входа и тщательно документироваться. Мы добились наилучшей точности, используя фильтрацию стоп-слов с помощью твитов, собранных на negwords.txt и poswords.txt.

GATE - GATE более 15 лет, и он активно используется для всех типов вычислительных задач, связанных с человеческим языком. GATE выделяется при анализе текста любых форм и размеров. Наше сообщество пользователей - от крупных корпораций до небольших стартапов, от многомиллионных исследовательских консорциумов до студенческих проектов - является самой большой и разнообразной из всех систем такого типа и распространяется на все континенты, кроме одного1.

textir - Набор инструментов для анализа текста и настроений. Сюда входит & # x2018; mnlm & # x2019; функция для разреженной полиномиальной логистической регрессии, & # x2018; pls & # x2019 ;, краткая процедура частичных наименьших квадратов и & # x2018; themes & # x2019; функция, для эффективной оценки и выбора размерности в скрытых тематических моделях.

NLP Toolsuite - Лаборатория JULIE предлагает полный набор инструментов NLP для прикладных целей семантического поиска, извлечения информации и интеллектуального анализа текста. Большая часть нашего постоянно расширяющегося набора инструментов основана на методах машинного обучения и, следовательно, не зависит от предметной области и языка.

...

На заметку: Вы бы порекомендовали потоковую трансляцию в Twitter или API get?

Что касается меня, я фанат питона и Java;)

Большое спасибо за вашу помощь!!!

Ответы на вопрос(1)

Ваш ответ на вопрос