Результаты поиска по запросу "bigdata"
Вставка большого количества узлов в Neo4J
У меня есть таблица, хранящаяся в типичной базе данных MySQL, и я создал небольшой инструмент парсера, использующий java, для анализа и построения базы данных neo4j. Эта база данных будет иметь ~ 40 миллионов узлов, каждый с одним или несколькими ...
импортировать сложные данные Json в улей
Требуется небольшая ложка кормления, как импортировать комплекс JSON в улей. JSON файл в формате:{"some-headers":"", "dump":[{"item-id":"item-1"},{"item-id":"item-2"},...]}, Улей, чтобы поля были даны подdump, Размер файла Json, как и сейчас, не ...
удаление дубликатов из фрейма данных
Я работаю над большим набором данных с n ковариатами. Многие из строк являются дубликатами. Чтобы идентифицировать дубликаты, мне нужно использовать подмножество ковариат для создания идентификационной переменной. То есть (n-x) ковариаты не имеют ...
Spark время выполнения задания экспоненциально возрастает с очень широким набором данных и число столбцов [дублированный]
Этот вопрос является точной копией: Spark Fixed Width File Import Большое количество столбцов, вызывающих большое время выполнения [/questions/52293806/spark-fixed-width-file-import-large-number-of-columns-causing-high-execution-tim] Я создал ...
Определение оптимального количества разделов Spark на основе рабочих, ядер и размера DataFrame
В Spark-land существует несколько похожих, но разных концепций, касающихся того, как работа передается на разные узлы и выполняется одновременно. В частности, есть: Узел Spark Driver sparkDriverCount) Количество рабочих узлов, доступных ...
Что произойдет, если СДР не поместится в памяти в Spark? [Дубликат]
На этот вопрос уже есть ответ: Что будет, если у меня не хватит памяти? [/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory] 3 ответа Насколько я знаю, Spark пытается выполнить все вычисления в памяти, если только вы не ...