Результаты поиска по запросу "apache-spark"
спасибо за любую помощь в решении этой проблемы
аюсь использовать искровое разделение. Я пытался сделать что-то вроде data.write.partitionBy("key").parquet("/location")Проблема здесь в каждом разделе создает огромное количество паркетных файлов, что приводит к медленному чтению, если я ...
Я думаю, что это рабочий диск машины, как mapreduce.
у меня только 1 исполнитель с объемом памяти 25 ГБ и если он может выполнять только одну задачу за раз, тогда возможно ли обработать (преобразование и действие) данные 1 ТБ, если да, то как они будут считываться и где будут храниться ...
Используйте словарь для заполнения значений определенных столбцов:
я есть следующий образец DataFrame: a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 |И я хочу заменить нулевые значения только в первых 2 столбцах - столбцы «а» и «б»: a | b | c | 1 | 2 | 4 | 0 | 0 | null| 0 | 3 | 4 |Вот код для создания ...
Это то, что я хочу. Хотя это сложнее, чем я ожидал.
ользую Python на Spark. Я хочу отфильтровать строки, где указанное поле равно целому списку. df.show() +--------------------+---------------+ | _id| a1| +--------------------+---------------+ |[596d799cbc6ec95d...|[1.0, 2.0, ...
Привет еще один вопрос. Если у меня есть несколько столбцов, как это, как я могу взорвать их вместе?
роблема в том, что у меня есть такая таблица: ------------------------ A B C ------------------------ a1 b2 c1|c2|c3|c4c1 | c2 | c3 | c4 - это одно значение, разделенное |. Мой конечный результат должен выглядеть так: --------- A B C --------- ...
Извините, я думал, что вы ошиблись данными
аюсь преобразовать простой DataFrame в DataSet из примера в Spark: https://spark.apache.org/docs/latest/sql-programming-guide.html [https://spark.apache.org/docs/latest/sql-programming-guide.html] case class Person(name: String, age: Int) import ...
как вы создаете sqlContext?
ускаю модуль логистической регрессии в Scala, и у меня есть кадр данных, как показано ниже: Д.Ф. +-----------+------------+ |x |y | +-----------+------------+ | 0| 0| | 0| 33| | 0| 58| | 0| 96| | 0| 1| | 1| 21| | 0| 10| | 0| 65| | 1| 7| | 1| ...
Читать многострочный JSON в Apache Spark
от вопрос уже есть ответ здесь: Как получить доступ к дочерним объектам в файле JSON? [/questions/44814926/how-to-access-sub-entities-in-json-file] 1 ответУ меня есть файл JSON, который выглядит так { "group" : {}, "lang" : [ [ 1, "scala", ...
Это также помогает, если у вас есть «NaT» в поле datetime64 [ns] и вы хотите перевести его в режим spark (как в моем случае). Очень полезный ответ. Спасибо.
у, чтобы преобразовать датафрейм из панд в спарк, и я используюspark_context.createDataFrame() метод для создания кадра данных. Я также указываю схему вcreateDataFrame() метод. То, что я хочу знать, - как обращаться с особыми случаями. ...
входной набор данных, чтобы избежать двойного сканирования, т.е.
ужно развернуть более одного столбца в кадре данных pyspark. Примерный фрейм данных, >>> d ...