Результаты поиска по запросу "text-mining"

1 ответ

Вот демо

ичок в Python и был бы очень благодарен, если бы вы могли помочь мне с моей проблемой извлечения текста. Я хочу извлечь весь текст, который лежит между двумя выражениями в текстовом файле (начало и конец буквы). Как для начала, так и для конца ...

1 ответ

@Vineet - я добавил полный пример с использованием Quanteda, чтобы проиллюстрировать, как генерировать частотное распределение главных слов в корпусе, используя пример корпуса, который поставляется с Quanteda.

ользую текстовый файл размером 160 МБ и занимаюсь интеллектуальным анализом данных, но, как только я преобразую его в матрицу, чтобы узнать частоту слов, он требует слишком много памяти, может кто-нибудь один, пожалуйста, помогите мне в этом > ...

2 ответа

Используйте больше данных ...

аюсь получить биграммы в предложениях, используя фразы в Gensim следующим образом. from gensim.models import Phrases from gensim.models.phrases import Phraser documents = ["the mayor of new york was there", "machine learning can be ...

ТОП публикаций

0 ответов

 подход с вашей собственной пользовательской функцией против другого пакета, вероятно, намного лучше как в краткосрочной, так и в долгосрочной перспективе.

дин потенциальный заголовок для этого поста: «При параллельной обработке в r имеет значение соотношение между числом ядер, размером фрагмента цикла и размером объекта?» У меня есть корпус, я запускаю некоторые преобразования с использованием ...

2 ответа

 стол.

аюсь извлечь данные из таблиц в некоторых отчетах PDF.Я видел несколько примеров использования pdftools и аналогичных пакетов, мне удалось получить текст, од...

1 ответ

Удачи в том, что вы делаете, и, пожалуйста, примите мой ответ, если это то, что вы ищете.

я есть текстовый корпус, который содержит более 1000 статей в каждой отдельной строке. Я пытаюсь использовать кластеризацию иерархий с использованием Scipy в...

2 ответа

 предложения, которые вы могли бы вывести infer_vector (), используя вашу модель, а затем определить, к какому кластеру он относится в вашей кластеризации sklearn

я есть несколько документов, которые содержат несколько предложений. Я хочу использоватьdoc2vec кластеризовать (например, k-means) векторы предложений, испол...

1 ответ

По большей части эти два вектора указывают в одном направлении (большие координаты будут доминировать над меньшими различиями в другой координате). Ожидается косинусное сходство ~ 1 (Помните, что cos (0) = 1)

ользую формулу косинусного сходства, чтобы рассчитать сходство между двумя векторами. Я пробовал два разных вектора, как это:Vector1 (-1237373741, 27, 1, 1, ...

2 ответа

Спасибо, это работает

1 ответ

Как разбить данные разговора на пары (Контекст, Ответ)

Я использую модель Gensim Doc2Vec, пытаясь сгруппировать части разговоров службы поддержки. Моя цель - дать команде поддержки автоответчик с предложениями.Ри...