Результаты поиска по запросу "apache-spark"
Извлечение различных значений в столбце с использованием Spark DataFrame
При использовании версии Spark 1.6.1 мне нужно получить различные значения в столбце, а затем выполнить какое-то конкретное преобразование поверх него. Столб...
Почему SparkSession выполняется дважды за одно действие?
Недавно обновлен до Spark 2.0, и я вижу странное поведение при попытке создать простой набор данных из строк JSON. Вот простой тестовый пример:
Искра нужна HDFS
Привет, кто-нибудь может мне объяснить, нужна ли Apache 'Spark Standalone' HDFS?Если требуется, как Spark использует размер блока HDFS во время выпол...
Как преобразовать столбец массивов строк в строки?
У меня есть столбец, который имеет тип
java.lang.OutOfMemoryError: невозможно получить 100 байт памяти, получено 0
Я запускаю Pyspark с Spark 2.0 в локальном режиме с помощью следующей команды:
Определение UDF, который принимает массив объектов в Spark DataFrame?
При работе с DataFrames Spark пользовательские функции (UDF) необходимы для отображения данных в столбцах. UDF требуют, чтобы типы аргументов были указаны яв...
Spark ML Pipeline вызывает java.lang.Exception: не удалось скомпилировать… Код… выходит за пределы 64 КБ
Используя Spark 2.0, я пытаюсь запустить простой VectorAssembler в ML-конвейере pyspark, например:
Spark :: KMeans дважды вызывает takeSample ()?
У меня много данных, и я экспериментировал с разделами кардинальности [20k, 200k +].Я называю это так:
Искровая ошибка: ожидаемые нулевые аргументы для построения ClassDict (для numpy.core.multiarray._reconstruct)
У меня есть датафрейм в Spark, в котором один из столбцов содержит массив. Теперь я написал отдельный UDF, который преобразует массив в другой массив только ...