Результаты поиска по запросу "apache-spark-sql"

1 ответ

, например:

я есть Dataframe, который я хочу использовать для прогнозирования с существующей моделью. Я получаю сообщение об ошибке при использовании метода преобразования моей модели. Вот как я обрабатываю данные обучения. forecast.printSchema()Схема ...

1 ответ

 ты можешь пропустить

ользую набор данных Spark и у меня возникают проблемы с вычитанием дней из столбца меток времени. Я хотел бы вычесть дни из столбца Timestamp и получить новый столбец с полным форматом даты и времени. Пример: 2017-09-22 13:17:39.900 - 10 ----> ...

2 ответа

Это держит. Порядок пунктов в шаблоне соответствия, который вы связали, не имеет значения.

ользую Spark 2.2.0 Я читаю CSV-файл следующим образом: val dataFrame = spark.read.option("inferSchema", "true") .option("header", true) .option("dateFormat", "yyyyMMdd") .csv(pathToCSVFile)В этом файле есть один столбец даты, и все записи имеют ...

ТОП публикаций

2 ответа

но следует упомянуть, что у udf могут быть потери производительности, так как они могут предотвратить нажатие фильтров. конечно, это не всегда так, но хорошей практикой является как можно больше придерживаться нативных функций spark.

ужно реализовать приведенную ниже логику SQL в SparkDataFrame SELECT KEY, CASE WHEN tc in ('a','b') THEN 'Y' WHEN tc in ('a') AND amt > 0 THEN 'N' ELSE NULL END REASON, FROM dataset1;Мой вкладDataFrame как показано ниже: val dataset1 = Seq((66, ...

3 ответа

@dnaumenko Возможно не смещение, а общие метаданные источника :)

2.2 представил структурированный потоковый источник Kafka. Как я понимаю, он использует каталог контрольных точек HDFS для хранения смещений и гарантии доставки сообщений «точно один раз». Но старые доки ...

2 ответа

Если указан COUNT, то результатом является мощность TXA.

я есть спарк DataFrame, который сгруппирован по столбцу, агрегированному с количеством: df.groupBy('a').agg(count("a")).show +---------+----------------+ |a |count(a) | +---------+----------------+ | null| 0| | -90| ...

3 ответа

 если хочешь. Очевидно, что он не может пережить родительский переводчик, над которым вы не имеете никакого контроля. В противном случае вы можете легко добавить ведение журнала и использовать отладчик, чтобы увидеть, что инициализация применяется только при первом вызове.

апуске следующего фрагмента кода PySpark: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients)) udf_parse_ingredients ...

1 ответ

Чтобы добавить в качестве нового столбца:

ичок в программировании Scala, и это мой вопрос: как посчитать количество строк для каждой строки? Мой Dataframe состоит из одного столбца типа Array [String]. friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>]

1 ответ

Лично я бы просто скачал файл и поместил его в распределенное хранилище.

азвивающая среда: IntellijспециалистScala2.10.6win7 x64зависимости: <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core_2.10 --> <dependency> ...

2 ответа

@ Бхарат Нет, это не закруглится. Для этого проверьте документы Spark на функцию округления или вы можете создать для нее отдельный UDF.

учаю ошибку: org.apache.spark.sql.analysisexception: cannot resolve 'year'Мои входные данные: 1,2012-07-21,2014-04-09Мой код: val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import ...