Результаты поиска по запросу "apache-spark"

2 ответа

https://spark.apache.org/docs/2.2.0/ml-features.html#vectorassembler

я есть файл CSV с данными ниже: 1,2,5 2,4 2,3Я хочу загрузить их в Dataframe, имеющий схему строки массива Вывод должен быть как ниже. [1, 2, 5] [2, 4] [2, 3]На это ответили используя scala здесь:Spark: преобразовать столбец строки ...

2 ответа

Вы пытались использовать ROWNUM вместо order_id в вашем коде?

ользую запрос для получения данных из MYSQL следующим образом: var df = spark.read.format("jdbc") .option("url", "jdbc:mysql://10.0.0.192:3306/retail_db") .option("driver" ,"com.mysql.jdbc.Driver") .option("user", "retail_dba") ...

1 ответ

Алексей романов

я есть свойство, называемое параметром типа, и один из его методов должен иметь возможность создавать пустой типизированный набор данных. trait MyTrait[T] { val sparkSession: SparkSession val spark = sparkSession.session val sparkContext = ...

ТОП публикаций

1 ответ

Вы можете рассмотреть вопрос о нормализации результатов для кадров с отсутствующими лагами:

у алгоритм обнаружения аномалий для временных рядов в Pyspark. Я хочу рассчитать взвешенную скользящую среднюю (-3,3) или (-4,4) окна. Прямо сейчас я использую функции задержки и опережения оконных функций и умножаю их на набор весов. Мое окно в ...

1 ответ

Попробуй это:

я есть примерный фрейм данных в Spark Scala, который содержит один столбец и много других столбцов 50+ и мне нужно разобрать идентификатор: пример данных: id name address 234 435 567 auh aus 345 123 muji ukвыходные данные: id name address 234 ...

1 ответ

 ты можешь:

ичок в SparkSQL / Scala и борюсь с парой, казалось бы, простых задач. Я пытаюсь создать динамический SQL из Scala String Array. Я пытаюсь повторно напечатать некоторые столбцы в моем DataFrame, но я не буду точно знать, что мне нужно ...

2 ответа

Надеюсь это поможет!

я есть специальный ридер для Spark Streaming, который читает данные из WebSocket. Я собираюсь попробовать Spark Structured Streaming. Как создать потоковый источник данных в Spark Structured Streaming?

2 ответа

http://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-persistence

оложим, у нас есть СДР, который используется несколько раз. Поэтому, чтобы снова и снова сохранять вычисления, мы сохранили этот RDD, используя метод rdd.persist (). Поэтому, когда мы сохраняем этот RDD, узлы, вычисляющие RDD, будут хранить ...

1 ответ

Это идеально, это именно то, что мне было нужно. Большое спасибо!

аюсь получить доступ к зависимостям СДР. В Scala это довольно простой код: scala> val myRdd = sc.parallelize(0 to 9).groupBy(_ % 2) myRdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy at <console>:24 scala> ...

3 ответа

С UDF с помощью взрыва

с Я хочу добавить возвращаемые значения UDF к существующему фрейму данных в отдельных столбцах. Как мне достичь этого изобретательно? Вот пример того, что я имею до сих пор. from pyspark.sql.functions import udf from pyspark.sql.types import ...