Список инструментов обработки естественного языка в отношении анализа настроений - какой из них вы рекомендуете [закрыто]

сначала извините за мой не очень идеальный английский ... я из Германии;)

Итак, для моего исследовательского проекта (бакалавриат) мне нужно проанализировать мнение твитов об определенных компаниях и брендах. Для этого мне нужно будет написать свою собственную программу / использовать какой-то модифицированный открытый исходный код (без API). - Мне нужно понять, что происходит).

Ниже вы найдете список некоторых найденных мною приложений НЛП. Мой вопрос сейчас, какой и какой подход вы бы порекомендовали? А какой из них не требует долгих ночей корректировки кода?

Например: когда я показываю твиттер для музыкального плеера>IPOD < а кто-то пишет:Это'Ужасный день, но по крайней мере мой iPod делает меня счастливым " или еще сложнее:Это'Ужасный день, но, по крайней мере, мой iPod это компенсирует »

Какое программное обеспечение достаточно умное, чтобы понять, что основное внимание уделяется iPod, а не погоде?

Кроме того, какое программное обеспечение является масштабируемым / ресурсосберегающим (я хочу проанализировать несколько твитов и нене хотите тратить тысячи долларов)?

Машинное обучение и интеллектуальный анализ данных

Weka - это набор алгоритмов машинного обучения для интеллектуального анализа данных. Это одна из самых популярных систем классификации текста. Он содержит реализации самых разнообразных алгоритмов, в том числе наивных байесовских алгоритмов и машин опорных векторов (SVM, перечисленных в разделе SMO) [Примечание. Другими обычно используемыми реализациями SVM, отличными от Java, являются SVM-Light, LibSVM и SVMTorch]. Связанным проектом является Kea (алгоритм извлечения ключевой фразы) - алгоритм извлечения ключевых фраз из текстовых документов.

Apache Lucene Mahout - Проект инкубатора для создания масштабируемых распределенных реализаций распространенных алгоритмов машинного обучения поверх платформы Hadoop Map-Reduce.

НЛП Инструменты

LingPipe - (не техническис открытым исходным кодом, см. ниже) Alias-I 's Lingpipe - это набор java-инструментов для лингвистической обработки текста, включая извлечение сущностей, речевые теги (pos), кластеризацию, классификацию и т. д. Это один из наиболее зрелых и широко используемых инструментов NLP с открытым исходным кодом в отрасли. Это известно "Скорость, стабильность и масштабируемость. Одной из ее лучших функций является обширная коллекция хорошо написанных руководств, которые помогут вам начать работу. У них есть список ссылок на соревнования, как академических, так и промышленных инструментов. Обязательно ознакомьтесь с их блогом. LingPipe выпускается по бесплатной коммерческой лицензии, которая включает в себя исходный код, ноне техническиОткрытый исходный код'.

OpenNLP - размещает различные инструменты NLP на основе Java, которые выполняют обнаружение предложений, токенизацию, маркировку части речи, разбивку на фрагменты и анализ, обнаружение именованных объектов и анализ параллельных ссылок с использованием пакета машинного обучения Maxent.

Стэнфордский синтаксический анализатор парсер и часть речи (POS) - Java-пакеты для разбора предложений и составления части речевых тегов из группы Stanford NLP. Он имеет реализации вероятностных синтаксических анализаторов естественного языка, как высокооптимизированных PCFG, так и лексизированных анализаторов зависимостей, и лексизированный анализатор PCFG. Это's имеет полную лицензию GNU GPL.

OpenFST - Пакет для манипулирования весами конечных автоматов. Они часто используются для представления вероятностной модели. Они используются для моделирования текста для распознавания речи, исправления ошибок распознавания текста, машинного перевода и множества других задач. Библиотека была разработана сотрудниками Google Research и NYU. Это библиотека C ++, которая должна быть быстрой и масштабируемой.

NTLK - Инструментарий естественного языка - это инструмент для обучения и исследования классификации, кластеризации, разметки и анализа речи и многого другого. Он содержит набор учебных пособий и наборов данных для экспериментов. Он написан Стивеном Бердом из Мельбурнского университета.

Искатель мнений - Система, которая выполняет субъективный анализ, автоматически определяя, когда в тексте присутствуют мнения, настроения, спекуляции и другие частные состояния. В частности, OpinionFinder стремится идентифицировать субъективные предложения и отмечать различные аспекты субъективности в этих предложениях, включая источник (держатель) субъективности и слова, которые включены в фразы, выражающие позитивные или негативные чувства.

Tawlk / осаэ - Библиотека питонов для классификации настроений в социальных сетях. Конечная цель - иметь простую библиотеку, которая "просто работает, Он должен иметь легкий барьер для входа и тщательно документироваться. Мы добились наилучшей точности, используя фильтрацию стоп-слов с помощью твитов, собранных на negwords.txt и poswords.txt.

ВОРОТА - GATE более 15 лет, и он активно используется для всех типов вычислительных задач, связанных с человеческим языком. GATE выделяется при анализе текста любых форм и размеров. От крупных корпораций до небольших стартапов, от €многомиллионные исследовательские консорциумы для студенческих проектов, наше пользовательское сообщество является крупнейшей и самой разнообразной из всех систем такого типа, и распространяется на все континенты, кроме одного1.

textir - Набор инструментов для анализа текста и настроений. Это включает в себяmnlm» функция, для разреженной полиномиальной логистической регрессии, ‘пожалуйста, краткая частичная процедура наименьших квадратов, и ‘темы функция, для эффективной оценки и выбора размерности в скрытых тематических моделях.

NLP Toolsuite - Лаборатория JULIE предлагает полный набор инструментов NLP для прикладных целей семантического поиска, извлечения информации и интеллектуального анализа текста. Большая часть нашего постоянно расширяющегося набора инструментов основана на методах машинного обучения и, следовательно, не зависит от предметной области и языка.

...

На заметку: Вы бы порекомендовали потоковую трансляцию в Twitter или API get?

Что касается меня, я фанат питона и Java;)

Большое спасибо за вашу помощь !!! Я

Ответы на вопрос(1)

Ваш ответ на вопрос