Результаты поиска по запросу "apache-spark"

1 ответ

Извлечение различных значений в столбце с использованием Spark DataFrame

При использовании версии Spark 1.6.1 мне нужно получить различные значения в столбце, а затем выполнить какое-то конкретное преобразование поверх него. Столб...

1 ответ

Почему SparkSession выполняется дважды за одно действие?

Недавно обновлен до Spark 2.0, и я вижу странное поведение при попытке создать простой набор данных из строк JSON. Вот простой тестовый пример:

1 ответ

Искра нужна HDFS

Привет, кто-нибудь может мне объяснить, нужна ли Apache 'Spark Standalone' HDFS?Если требуется, как Spark использует размер блока HDFS во время выпол...

ТОП публикаций

3 ответа

Как преобразовать столбец массивов строк в строки?

У меня есть столбец, который имеет тип

4 ответа

java.lang.OutOfMemoryError: невозможно получить 100 байт памяти, получено 0

Я запускаю Pyspark с Spark 2.0 в локальном режиме с помощью следующей команды:

1 ответ

Определение UDF, который принимает массив объектов в Spark DataFrame?

При работе с DataFrames Spark пользовательские функции (UDF) необходимы для отображения данных в столбцах. UDF требуют, чтобы типы аргументов были указаны яв...

1 ответ

Spark ML Pipeline вызывает java.lang.Exception: не удалось скомпилировать… Код… выходит за пределы 64 КБ

Используя Spark 2.0, я пытаюсь запустить простой VectorAssembler в ML-конвейере pyspark, например:

1 ответ

Spark :: KMeans дважды вызывает takeSample ()?

У меня много данных, и я экспериментировал с разделами кардинальности [20k, 200k +].Я называю это так:

1 ответ

Искра: работа в случайном порядке, приводящая к длительной паузе ГХ

я бегу

2 ответа

Искровая ошибка: ожидаемые нулевые аргументы для построения ClassDict (для numpy.core.multiarray._reconstruct)

У меня есть датафрейм в Spark, в котором один из столбцов содержит массив. Теперь я написал отдельный UDF, который преобразует массив в другой массив только ...