Результаты поиска по запросу "text-mining"
Вот демо
ичок в Python и был бы очень благодарен, если бы вы могли помочь мне с моей проблемой извлечения текста. Я хочу извлечь весь текст, который лежит между двумя выражениями в текстовом файле (начало и конец буквы). Как для начала, так и для конца ...
@Vineet - я добавил полный пример с использованием Quanteda, чтобы проиллюстрировать, как генерировать частотное распределение главных слов в корпусе, используя пример корпуса, который поставляется с Quanteda.
ользую текстовый файл размером 160 МБ и занимаюсь интеллектуальным анализом данных, но, как только я преобразую его в матрицу, чтобы узнать частоту слов, он требует слишком много памяти, может кто-нибудь один, пожалуйста, помогите мне в этом > ...
Используйте больше данных ...
аюсь получить биграммы в предложениях, используя фразы в Gensim следующим образом. from gensim.models import Phrases from gensim.models.phrases import Phraser documents = ["the mayor of new york was there", "machine learning can be ...
подход с вашей собственной пользовательской функцией против другого пакета, вероятно, намного лучше как в краткосрочной, так и в долгосрочной перспективе.
дин потенциальный заголовок для этого поста: «При параллельной обработке в r имеет значение соотношение между числом ядер, размером фрагмента цикла и размером объекта?» У меня есть корпус, я запускаю некоторые преобразования с использованием ...
стол.
аюсь извлечь данные из таблиц в некоторых отчетах PDF.Я видел несколько примеров использования pdftools и аналогичных пакетов, мне удалось получить текст, од...
Удачи в том, что вы делаете, и, пожалуйста, примите мой ответ, если это то, что вы ищете.
я есть текстовый корпус, который содержит более 1000 статей в каждой отдельной строке. Я пытаюсь использовать кластеризацию иерархий с использованием Scipy в...
предложения, которые вы могли бы вывести infer_vector (), используя вашу модель, а затем определить, к какому кластеру он относится в вашей кластеризации sklearn
я есть несколько документов, которые содержат несколько предложений. Я хочу использоватьdoc2vec кластеризовать (например, k-means) векторы предложений, испол...
По большей части эти два вектора указывают в одном направлении (большие координаты будут доминировать над меньшими различиями в другой координате). Ожидается косинусное сходство ~ 1 (Помните, что cos (0) = 1)
ользую формулу косинусного сходства, чтобы рассчитать сходство между двумя векторами. Я пробовал два разных вектора, как это:Vector1 (-1237373741, 27, 1, 1, ...
Как разбить данные разговора на пары (Контекст, Ответ)
Я использую модель Gensim Doc2Vec, пытаясь сгруппировать части разговоров службы поддержки. Моя цель - дать команде поддержки автоответчик с предложениями.Ри...