Результаты поиска по запросу "bigdata"

У меня есть таблица, хранящаяся в типичной базе данных MySQL, и я создал небольшой инструмент парсера, использующий java, для анализа и построения базы данных neo4j. Эта база данных будет иметь ~ 40 миллионов узлов, каждый с одним или несколькими ...

import json hadoop hive

2 ответа

импортировать сложные данные Json в улей

Требуется небольшая ложка кормления, как импортировать комплекс JSON в улей. JSON файл в формате:{"some-headers":"", "dump":[{"item-id":"item-1"},{"item-id":"item-2"},...]}, Улей, чтобы поля были даны подdump, Размер файла Json, как и сейчас, не ...

duplicates r duplicate-removal

3 ответа

удаление дубликатов из фрейма данных

Я работаю над большим набором данных с n ковариатами. Многие из строк являются дубликатами. Чтобы идентифицировать дубликаты, мне нужно использовать подмножество ковариат для создания идентификационной переменной. То есть (n-x) ковариаты не имеют ...

ТОП публикаций

Test Test Test Test Test Test

21 Startup Ideas to Start Profitable Business in 2020

How To Build E-Learning Platform From Scratch: The Complex Guide From Idea to MVP

How to Raise Your Own SaaS Product off the Ground and Avoid Common Pitfalls

apache-spark scala

1 ответ

Spark время выполнения задания экспоненциально возрастает с очень широким набором данных и число столбцов [дублированный]

Этот вопрос является точной копией: Spark Fixed Width File Import Большое количество столбцов, вызывающих большое время выполнения [/questions/52293806/spark-fixed-width-file-import-large-number-of-columns-causing-high-execution-tim] Я создал ...

apache-spark spark-dataframe distributed-computing partitioning

1 ответ

Определение оптимального количества разделов Spark на основе рабочих, ядер и размера DataFrame

В Spark-land существует несколько похожих, но разных концепций, касающихся того, как работа передается на разные узлы и выполняется одновременно. В частности, есть: Узел Spark Driver sparkDriverCount) Количество рабочих узлов, доступных ...

scala hadoop apache-spark

1 ответ

Что произойдет, если СДР не поместится в памяти в Spark? [Дубликат]

На этот вопрос уже есть ответ: Что будет, если у меня не хватит памяти? [/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory] 3 ответа Насколько я знаю, Spark пытается выполнить все вычисления в памяти, если только вы не ...

Страница 16 из 16

12 13 14 1516

Результаты поиска по запросу "bigdata"

Вставка большого количества узлов в Neo4J

импортировать сложные данные Json в улей

удаление дубликатов из фрейма данных

Популярные теги

ТОП публикаций

Spark время выполнения задания экспоненциально возрастает с очень широким набором данных и число столбцов [дублированный]

Определение оптимального количества разделов Spark на основе рабочих, ядер и размера DataFrame

Что произойдет, если СДР не поместится в памяти в Spark? [Дубликат]

Вы очень активны! Это здорово!

Результаты поиска по запросу "bigdata"

Вставка большого количества узлов в Neo4J

импортировать сложные данные Json в улей

удаление дубликатов из фрейма данных

Популярные теги

ТОП публикаций

Spark время выполнения задания экспоненциально возрастает с очень широким набором данных и число столбцов [дублированный]

Определение оптимального количества разделов Spark на основе рабочих, ядер и размера DataFrame

Что произойдет, если СДР не поместится в памяти в Spark? [Дубликат]