Результаты поиска по запросу "bigdata"

1 ответ

По большей части эти два вектора указывают в одном направлении (большие координаты будут доминировать над меньшими различиями в другой координате). Ожидается косинусное сходство ~ 1 (Помните, что cos (0) = 1)

ользую формулу косинусного сходства, чтобы рассчитать сходство между двумя векторами. Я пробовал два разных вектора, как это:Vector1 (-1237373741, 27, 1, 1, ...

1 ответ

@TomasJansson Он будет использовать то же время выполнения, что и исходное. Но ваша начальная дата будет иметь новое значение (текущее время). Вы можете увидеть все на экране «Сведения об экземпляре задачи».

ользуюLocalExecutor и мой даг3 задания где задача (C) зависит от задачи (A). Задача (B) и задача (A) могут выполняться параллельно, как показано нижеA -> ...

2 ответа

«Обратите внимание, что из-за логической позиции, в которой оценивается предложение HAVING, выражения, спроецированные предложением SELECT, не видны предложению HAVING».

ТОП публикаций

2 ответа

найти все два словосочетания, которые появляются в нескольких строках в наборе данных

Мы хотели бы запустить запрос, который возвращает две словосочетания, которые появляются в более чем одной строке. Так, например, возьмите строку «Данные ниндзя». Поскольку он присутствует в нескольких строках нашего набора данных, запрос должен ...

4 ответа

С N = 2:

файл GEOJson следующим образом: -

1 ответ

 хотя - я перебрал массив заголовков CSV.

0 ответов

Обычно он побьет первую формулировку, когда требуется лишь небольшое количество ближайших матчей.

я 300 миллионов адресов в моей базе данных PostgreSQL 9.3, и я хочу использовать pg_trgm для нечеткого поиска строк. Конечная цель - реализовать функцию поиска, аналогичную поиску по карте Google. Когда я использовал pg_trgm для поиска по этим ...

0 ответов

Собственный накопитель строк был очень полезен для выявления поврежденных входных файлов.

ли читать pdf / аудио / видео файлы (неструктурированные данные) с помощью Apache Spark? Например, у меня есть тысячи счетов в формате PDF, и я хочу прочитать данные из них и провести некоторую аналитику по этому вопросу. Какие шаги я должен ...

0 ответов

спасибо за любую помощь в решении этой проблемы

аюсь использовать искровое разделение. Я пытался сделать что-то вроде data.write.partitionBy("key").parquet("/location")Проблема здесь в каждом разделе создает огромное количество паркетных файлов, что приводит к медленному чтению, если я ...

0 ответов

 используется для определения разделов задач фреймворка. обычно применяется для операций RDD.

разница междуspark.sql.shuffle.partitions а такжеspark.default.parallelism? Я пытался установить их обоих вSparkSQL, но номер задачи второго этапа всегда 200.