Результаты поиска по запросу "apache-spark"
метод.
у меня есть некоторые данные, которые я передаю в теме Кафки, я беру эти потоковые данные и помещаю их вDataFrame, Я хочу отобразить данные внутри DataFrame: import os from kafka import KafkaProducer from pyspark.sql import ...
Отлично! Это даже работает для вложенных структур.
адр данных, в котором один столбец является последовательностью структур, сгенерированных следующей последовательностью val df = spark .range(10) .map((i) => (i % 2, util.Random.nextInt(10), util.Random.nextInt(10))) .toDF("a","b","c") ...
Это не относится здесь. Это специфический для pyspark.
таем данные из MongoDBCollection. Collection столбец имеет два разных значения (например,(bson.Int64,int) (int,float) ). Я пытаюсь получить тип данных, используя pyspark. Моя проблема в том, что некоторые столбцы имеют разные типы ...
ссылка в правом верхнем углу. Нажмите, чтобы перезагрузить вашу ИДЕЮ. Вы можете перезагрузить IDEA, чтобы убедиться, что вы загрузили все (так как я не вижу, что вы делаете, что на самом деле рекомендуется).
аюсь создать и запустить проект Scala / Spark в IntelliJ IDEA. я добавилorg.apache.spark:spark-sql_2.11:2.0.0 в глобальных библиотеках и мойbuild.sbt выглядит как ниже. name := "test" version := "1.0" scalaVersion := "2.11.8" ...
этот ответ
аюсь прочитать файлы, присутствующие наSequence троп в скале. Ниже приведен пример (псевдо) кода: val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*)Теперь в приведенной выше последовательности некоторые пути ...
: Если вы используете это с автономным кластером Spark, вы должны убедиться, что версия (включая минорную) совпадает, иначе вы можете столкнуться с нечетными ошибками
ользую PySpark из Django и подключаюсь к основному узлу spark, используя SparkSession для выполнения задания в кластере. У меня вопрос: нужна ли мне полная установка свечи на моей локальной машине? Во всей документации я должен установить spark, ...
Это должно работать тогда
ющий код работает нормально, пока я не добавлюshow послеagg, Почемуshow невозможно? val tempTableB = tableB.groupBy("idB") .agg(first("numB").as("numB")) //when I add a .show here, it doesn't work tableA.join(tempTableB, $"idA" === ...
Привет @elarib. Это работало, но не удаляло те столбцы, которые были нулевыми. Он заменяет NULL пробелами. Мне не нужны эти столбцы вообще
далить из таблицы столбцы, содержащие только нулевые значения? Предположим, у меня есть стол - SnapshotDate CreationDate Country Region CloseDate Probability BookingAmount RevenueAmount SnapshotDate1 CreationDate1 CloseDate1 null null null null ...
и уверен, что вы знаете, что делаете при изменении кода: ваше редактирование испортило совершенно хороший ответ, в результате чего возникло исключение (восстановленное в оригинале OP) ...
я есть фрейм данных со следующим типом col1|col2|col3|col4 xxxx|yyyy|zzzz|[1111],[2222]Я хочу, чтобы мой вывод был следующего типа col1|col2|col3|col4|col5 xxxx|yyyy|zzzz|1111|2222Мой col4 является массивом, и я хочу преобразовать его в ...
функция:
я есть датафрейм с этими столбцамиid, price, timestamp. Я хотел бы найти среднее значение сгруппированы поid. Я использую этот код, чтобы найти его, но он дает мне эту ошибку. from pyspark.sql import DataFrameStatFunctions as statFunc ...