Результаты поиска по запросу "apache-spark"
пожалуйста, посмотрите. извините за путаницу
ользую Hive Metastore в EMR. Я могу запросить таблицу вручную через HiveSQL. Но когда я использую ту же таблицу в Spark Job, он говоритВходной путь не существует: s3: // Вызывается: org.apache.hadoop.mapred.InvalidInputException: Входной путь ...
Модификация POM.xml помогла мне.
ользую HDP-2.6.3.0 с пакетом Spark2 2.2.0. Я пытаюсь написать потребителя Kafka, используя API-интерфейс Structured Streaming, но получаю следующую ошибку после отправки задания в кластер: Exception in thread "main" ...
Он не использует хаки. Просто ручное разрешение зависимостей.
я есть простая функция искры для тестирования окон DF: import org.apache.spark.sql.{DataFrame, SparkSession} object ScratchPad { def main(args: Array[String]): Unit = { val spark ...
Я уверен, что набор данных обрабатывается только один раз.
отаю с пакетом ML для целей регрессии и получаю хорошие результаты на моих данных. Сейчас я пытаюсь получить несколько метрик одновременно, так как сейчас я делаю то, что предлагается в примерах ...
В то же время я увидел, что принятый ответ на вопрос, который дублирует этот, говорит точно так же, как и я, поэтому я склонен согласиться с ответчиком, что этот ответ является ошибочным для партии.
от вопрос уже есть ответ здесь: Как выбрать первый ряд каждой группы? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 ответовУ меня есть следующий DataFramedf: Как я могу удалить дубликаты, сохраняя при этом минимальное ...
Большое спасибо за ответ. но на самом деле мне нужно проверить, является ли схема куста той же самой Sas-схемой, поэтому мне нужно указать "timestamptype" в кусте с Datetime в SAS, который имеет тип NUm, а также тип Integer в кусте имеет соответствующий тип данных как NUM в SAS, так что в основном мне также нужно сравнить столбец «Формат» в схеме SAS со схемой улья.
вниваю два кадра данных (в основном это схемы двух разных источников данных, один из куста, а другой из SAS9.2) Мне нужно проверить структуру для обоих источников данных, поэтому я преобразовал схему в два кадра данных, и вот они: Схема SAS ...
, Тогда, надеюсь, причина будет очевидна для вас, или вы можете отправить ее на вопрос.
понимаю поведение искры. Я создаю UDF, который возвращает целое число, как показано ниже import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} object Show { def main(args: Array[String]): Unit = { ...
stackoverflow.com/a/48095339/8371915
я есть DataFrame с двумя столбцами: df = Col1 Col2 aaa bbb ccc aaaЯ хочу закодировать строковые значения в числовые значения. Мне удалось сделать это таким образом: import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer} val indexer1 ...
читатель и использовать пользовательскую логику, чтобы подтолкнуть выбор столбца непосредственно в процессе анализа. С псевдокодом:
аюсь добавить новый столбец вDataFrame, Значением этого столбца является значение другого столбца, имя которого зависит от других столбцов из того жеDataFrame. Например, учитывая это: +---+---+----+----+ | A| B| A_1| B_2| +---+---+----+----+ | ...
Spark: Как сопоставить Python с пользовательскими функциями Scala или Java?
аюсь применить пользовательскую функцию для Window в PySpark. Я читал, что UDAF может быть подходящим способом, но я не смог найти ничего конкретного. Чтобы привести пример (взято отсюда:Технический блог ...