Результаты поиска по запросу "text-mining"

1 ответ

По большей части эти два вектора указывают в одном направлении (большие координаты будут доминировать над меньшими различиями в другой координате). Ожидается косинусное сходство ~ 1 (Помните, что cos (0) = 1)

ользую формулу косинусного сходства, чтобы рассчитать сходство между двумя векторами. Я пробовал два разных вектора, как это:Vector1 (-1237373741, 27, 1, 1, ...

1 ответ

Удачи в том, что вы делаете, и, пожалуйста, примите мой ответ, если это то, что вы ищете.

я есть текстовый корпус, который содержит более 1000 статей в каждой отдельной строке. Я пытаюсь использовать кластеризацию иерархий с использованием Scipy в...

2 ответа

 предложения, которые вы могли бы вывести infer_vector (), используя вашу модель, а затем определить, к какому кластеру он относится в вашей кластеризации sklearn

я есть несколько документов, которые содержат несколько предложений. Я хочу использоватьdoc2vec кластеризовать (например, k-means) векторы предложений, испол...

ТОП публикаций

2 ответа

 стол.

аюсь извлечь данные из таблиц в некоторых отчетах PDF.Я видел несколько примеров использования pdftools и аналогичных пакетов, мне удалось получить текст, од...

0 ответов

 подход с вашей собственной пользовательской функцией против другого пакета, вероятно, намного лучше как в краткосрочной, так и в долгосрочной перспективе.

дин потенциальный заголовок для этого поста: «При параллельной обработке в r имеет значение соотношение между числом ядер, размером фрагмента цикла и размером объекта?» У меня есть корпус, я запускаю некоторые преобразования с использованием ...

2 ответа

Используйте больше данных ...

аюсь получить биграммы в предложениях, используя фразы в Gensim следующим образом. from gensim.models import Phrases from gensim.models.phrases import Phraser documents = ["the mayor of new york was there", "machine learning can be ...

1 ответ

@Vineet - я добавил полный пример с использованием Quanteda, чтобы проиллюстрировать, как генерировать частотное распределение главных слов в корпусе, используя пример корпуса, который поставляется с Quanteda.

ользую текстовый файл размером 160 МБ и занимаюсь интеллектуальным анализом данных, но, как только я преобразую его в матрицу, чтобы узнать частоту слов, он требует слишком много памяти, может кто-нибудь один, пожалуйста, помогите мне в этом > ...

2 ответа

 об этом?

ибудь знает (предпочтительно с открытым исходным кодом) библиотеку C #, которая может быть реализована для расчета общего настроения некоторого данного текста?

1 ответ

Используйте scikit-learn TfIdf с Gensim LDA

Я использовал различные версии TFIDF в scikit, чтобы научиться моделировать некоторые текстовые данные. vectorizer = TfidfVectorizer(min_df=1,stop_words='english')Полученные данные X имеют следующий формат: <rowsxcolumns sparse matrix of type ...

1 ответ

Вот демо

ичок в Python и был бы очень благодарен, если бы вы могли помочь мне с моей проблемой извлечения текста. Я хочу извлечь весь текст, который лежит между двумя выражениями в текстовом файле (начало и конец буквы). Как для начала, так и для конца ...