Результаты поиска по запросу "bigdata"
По большей части эти два вектора указывают в одном направлении (большие координаты будут доминировать над меньшими различиями в другой координате). Ожидается косинусное сходство ~ 1 (Помните, что cos (0) = 1)
ользую формулу косинусного сходства, чтобы рассчитать сходство между двумя векторами. Я пробовал два разных вектора, как это:Vector1 (-1237373741, 27, 1, 1, ...
@TomasJansson Он будет использовать то же время выполнения, что и исходное. Но ваша начальная дата будет иметь новое значение (текущее время). Вы можете увидеть все на экране «Сведения об экземпляре задачи».
ользуюLocalExecutor и мой даг3 задания где задача (C) зависит от задачи (A). Задача (B) и задача (A) могут выполняться параллельно, как показано нижеA -> ...
найти все два словосочетания, которые появляются в нескольких строках в наборе данных
Мы хотели бы запустить запрос, который возвращает две словосочетания, которые появляются в более чем одной строке. Так, например, возьмите строку «Данные ниндзя». Поскольку он присутствует в нескольких строках нашего набора данных, запрос должен ...
Обычно он побьет первую формулировку, когда требуется лишь небольшое количество ближайших матчей.
я 300 миллионов адресов в моей базе данных PostgreSQL 9.3, и я хочу использовать pg_trgm для нечеткого поиска строк. Конечная цель - реализовать функцию поиска, аналогичную поиску по карте Google. Когда я использовал pg_trgm для поиска по этим ...
Собственный накопитель строк был очень полезен для выявления поврежденных входных файлов.
ли читать pdf / аудио / видео файлы (неструктурированные данные) с помощью Apache Spark? Например, у меня есть тысячи счетов в формате PDF, и я хочу прочитать данные из них и провести некоторую аналитику по этому вопросу. Какие шаги я должен ...
спасибо за любую помощь в решении этой проблемы
аюсь использовать искровое разделение. Я пытался сделать что-то вроде data.write.partitionBy("key").parquet("/location")Проблема здесь в каждом разделе создает огромное количество паркетных файлов, что приводит к медленному чтению, если я ...
используется для определения разделов задач фреймворка. обычно применяется для операций RDD.
разница междуspark.sql.shuffle.partitions а такжеspark.default.parallelism? Я пытался установить их обоих вSparkSQL, но номер задачи второго этапа всегда 200.