Результаты поиска по запросу "apache-spark-sql"

1 ответ

Извините, я думал, что вы ошиблись данными

аюсь преобразовать простой DataFrame в DataSet из примера в Spark: https://spark.apache.org/docs/latest/sql-programming-guide.html [https://spark.apache.org/docs/latest/sql-programming-guide.html] case class Person(name: String, age: Int) import ...

0 ответов

Это не относится здесь. Это специфический для pyspark.

таем данные из MongoDBCollection. Collection столбец имеет два разных значения (например,(bson.Int64,int) (int,float) ). Я пытаюсь получить тип данных, используя pyspark. Моя проблема в том, что некоторые столбцы имеют разные типы ...

1 ответ

Отлично! Это даже работает для вложенных структур.

адр данных, в котором один столбец является последовательностью структур, сгенерированных следующей последовательностью val df = spark .range(10) .map((i) => (i % 2, util.Random.nextInt(10), util.Random.nextInt(10))) .toDF("a","b","c") ...

ТОП публикаций

2 ответа

Привет @elarib. Это работало, но не удаляло те столбцы, которые были нулевыми. Он заменяет NULL пробелами. Мне не нужны эти столбцы вообще

далить из таблицы столбцы, содержащие только нулевые значения? Предположим, у меня есть стол - SnapshotDate CreationDate Country Region CloseDate Probability BookingAmount RevenueAmount SnapshotDate1 CreationDate1 CloseDate1 null null null null ...

2 ответа

Это должно работать тогда

ющий код работает нормально, пока я не добавлюshow послеagg, Почемуshow невозможно? val tempTableB = tableB.groupBy("idB") .agg(first("numB").as("numB")) //when I add a .show here, it doesn't work tableA.join(tempTableB, $"idA" === ...

1 ответ

Оконные функции не поддерживают рекурсию, но здесь это не требуется. Этот тип сессионизации может быть легко обработан с накопленной суммой:

я есть следующие данные, показывающие доход от покупок. +-------+--------+-------+ |user_id|visit_id|revenue| +-------+--------+-------+ | 1| 1| 0| | 1| 2| 0| | 1| 3| 0| | 1| 4| 100| | 1| 5| 0| | 1| 6| 0| | 1| 7| 200| | 1| 8| 0| | 1| 9| 10| ...

2 ответа

 функция:

я есть датафрейм с этими столбцамиid, price, timestamp. Я хотел бы найти среднее значение сгруппированы поid. Я использую этот код, чтобы найти его, но он дает мне эту ошибку. from pyspark.sql import DataFrameStatFunctions as statFunc ...

0 ответов

Кажется, с перерывами. Через некоторое время эта проблема исчезла там, где я был.

я собрал файл scala, используя IntelliJ IDEA, показалась следующая ошибка. Ошибка: scalac: неверная символьная ссылка. Подпись в SQLContext.class ссылается на тип ведения журнала в пакете org.apache.spark, который недоступен. Он может полностью ...

1 ответ

Какие существуют типы соединений в Spark?

dataframe 1 -: +------+-------+---------+----+---+-------+ |city |product|date |sale|exp|wastage| +------+-------+---------+----+---+-------+ |city 1|prod 1 |9/29/2017|358 |975|193 | |city 1|prod 2 |8/25/2017|50 |687|201 | |city 1|prod ...

1 ответ

Можно было бы избежать декартово произведение с

case class Foo1(codes:Seq[String], name:String) case class Foo2(code:String, description:String) val ds1 = Seq( Foo1(Seq("A"), "foo1"), Foo1(Seq("A", "B"), "foo2"), Foo1(Seq("B", "C", "D"), "foo3"), Foo1(Seq("C"), "foo4"), Foo1(Seq("C", "D"), ...