Результаты поиска по запросу "apache-spark"

0 ответов

спасибо за любую помощь в решении этой проблемы

аюсь использовать искровое разделение. Я пытался сделать что-то вроде data.write.partitionBy("key").parquet("/location")Проблема здесь в каждом разделе создает огромное количество паркетных файлов, что приводит к медленному чтению, если я ...

1 ответ

Я думаю, что это рабочий диск машины, как mapreduce.

у меня только 1 исполнитель с объемом памяти 25 ГБ и если он может выполнять только одну задачу за раз, тогда возможно ли обработать (преобразование и действие) данные 1 ТБ, если да, то как они будут считываться и где будут храниться ...

2 ответа

Используйте словарь для заполнения значений определенных столбцов:

я есть следующий образец DataFrame: a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 |И я хочу заменить нулевые значения только в первых 2 столбцах - столбцы «а» и «б»: a | b | c | 1 | 2 | 4 | 0 | 0 | null| 0 | 3 | 4 |Вот код для создания ...

ТОП публикаций

0 ответов

Это то, что я хочу. Хотя это сложнее, чем я ожидал.

ользую Python на Spark. Я хочу отфильтровать строки, где указанное поле равно целому списку. df.show() +--------------------+---------------+ | _id| a1| +--------------------+---------------+ |[596d799cbc6ec95d...|[1.0, 2.0, ...

1 ответ

Привет еще один вопрос. Если у меня есть несколько столбцов, как это, как я могу взорвать их вместе?

роблема в том, что у меня есть такая таблица: ------------------------ A B C ------------------------ a1 b2 c1|c2|c3|c4c1 | c2 | c3 | c4 - это одно значение, разделенное |. Мой конечный результат должен выглядеть так: --------- A B C --------- ...

1 ответ

Извините, я думал, что вы ошиблись данными

аюсь преобразовать простой DataFrame в DataSet из примера в Spark: https://spark.apache.org/docs/latest/sql-programming-guide.html [https://spark.apache.org/docs/latest/sql-programming-guide.html] case class Person(name: String, age: Int) import ...

1 ответ

как вы создаете sqlContext?

ускаю модуль логистической регрессии в Scala, и у меня есть кадр данных, как показано ниже: Д.Ф. +-----------+------------+ |x |y | +-----------+------------+ | 0| 0| | 0| 33| | 0| 58| | 0| 96| | 0| 1| | 1| 21| | 0| 10| | 0| 65| | 1| 7| | 1| ...

1 ответ

Читать многострочный JSON в Apache Spark

от вопрос уже есть ответ здесь: Как получить доступ к дочерним объектам в файле JSON? [/questions/44814926/how-to-access-sub-entities-in-json-file] 1 ответУ меня есть файл JSON, который выглядит так { "group" : {}, "lang" : [ [ 1, "scala", ...

0 ответов

Это также помогает, если у вас есть «NaT» в поле datetime64 [ns] и вы хотите перевести его в режим spark (как в моем случае). Очень полезный ответ. Спасибо.

у, чтобы преобразовать датафрейм из панд в спарк, и я используюspark_context.createDataFrame() метод для создания кадра данных. Я также указываю схему вcreateDataFrame() метод. То, что я хочу знать, - как обращаться с особыми случаями. ...

0 ответов

 входной набор данных, чтобы избежать двойного сканирования, т.е.

ужно развернуть более одного столбца в кадре данных pyspark. Примерный фрейм данных, >>> d ...