Результаты поиска по запросу "apache-spark"
https://spark.apache.org/docs/2.2.0/ml-features.html#vectorassembler
я есть файл CSV с данными ниже: 1,2,5 2,4 2,3Я хочу загрузить их в Dataframe, имеющий схему строки массива Вывод должен быть как ниже. [1, 2, 5] [2, 4] [2, 3]На это ответили используя scala здесь:Spark: преобразовать столбец строки ...
Вы пытались использовать ROWNUM вместо order_id в вашем коде?
ользую запрос для получения данных из MYSQL следующим образом: var df = spark.read.format("jdbc") .option("url", "jdbc:mysql://10.0.0.192:3306/retail_db") .option("driver" ,"com.mysql.jdbc.Driver") .option("user", "retail_dba") ...
Алексей романов
я есть свойство, называемое параметром типа, и один из его методов должен иметь возможность создавать пустой типизированный набор данных. trait MyTrait[T] { val sparkSession: SparkSession val spark = sparkSession.session val sparkContext = ...
Вы можете рассмотреть вопрос о нормализации результатов для кадров с отсутствующими лагами:
у алгоритм обнаружения аномалий для временных рядов в Pyspark. Я хочу рассчитать взвешенную скользящую среднюю (-3,3) или (-4,4) окна. Прямо сейчас я использую функции задержки и опережения оконных функций и умножаю их на набор весов. Мое окно в ...
Попробуй это:
я есть примерный фрейм данных в Spark Scala, который содержит один столбец и много других столбцов 50+ и мне нужно разобрать идентификатор: пример данных: id name address 234 435 567 auh aus 345 123 muji ukвыходные данные: id name address 234 ...
ты можешь:
ичок в SparkSQL / Scala и борюсь с парой, казалось бы, простых задач. Я пытаюсь создать динамический SQL из Scala String Array. Я пытаюсь повторно напечатать некоторые столбцы в моем DataFrame, но я не буду точно знать, что мне нужно ...
Надеюсь это поможет!
я есть специальный ридер для Spark Streaming, который читает данные из WebSocket. Я собираюсь попробовать Spark Structured Streaming. Как создать потоковый источник данных в Spark Structured Streaming?
http://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-persistence
оложим, у нас есть СДР, который используется несколько раз. Поэтому, чтобы снова и снова сохранять вычисления, мы сохранили этот RDD, используя метод rdd.persist (). Поэтому, когда мы сохраняем этот RDD, узлы, вычисляющие RDD, будут хранить ...
Это идеально, это именно то, что мне было нужно. Большое спасибо!
аюсь получить доступ к зависимостям СДР. В Scala это довольно простой код: scala> val myRdd = sc.parallelize(0 to 9).groupBy(_ % 2) myRdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy at <console>:24 scala> ...
С UDF с помощью взрыва
с Я хочу добавить возвращаемые значения UDF к существующему фрейму данных в отдельных столбцах. Как мне достичь этого изобретательно? Вот пример того, что я имею до сих пор. from pyspark.sql.functions import udf from pyspark.sql.types import ...