Результаты поиска по запросу "apache-spark"

1 ответ

 пожалуйста, посмотрите. извините за путаницу

ользую Hive Metastore в EMR. Я могу запросить таблицу вручную через HiveSQL. Но когда я использую ту же таблицу в Spark Job, он говоритВходной путь не существует: s3: // Вызывается: org.apache.hadoop.mapred.InvalidInputException: Входной путь ...

2 ответа

 Модификация POM.xml помогла мне.

ользую HDP-2.6.3.0 с пакетом Spark2 2.2.0. Я пытаюсь написать потребителя Kafka, используя API-интерфейс Structured Streaming, но получаю следующую ошибку после отправки задания в кластер: Exception in thread "main" ...

4 ответа

Он не использует хаки. Просто ручное разрешение зависимостей.

я есть простая функция искры для тестирования окон DF: import org.apache.spark.sql.{DataFrame, SparkSession} object ScratchPad { def main(args: Array[String]): Unit = { val spark ...

ТОП публикаций

1 ответ

Я уверен, что набор данных обрабатывается только один раз.

отаю с пакетом ML для целей регрессии и получаю хорошие результаты на моих данных. Сейчас я пытаюсь получить несколько метрик одновременно, так как сейчас я делаю то, что предлагается в примерах ...

1 ответ

В то же время я увидел, что принятый ответ на вопрос, который дублирует этот, говорит точно так же, как и я, поэтому я склонен согласиться с ответчиком, что этот ответ является ошибочным для партии.

от вопрос уже есть ответ здесь: Как выбрать первый ряд каждой группы? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 ответовУ меня есть следующий DataFramedf: Как я могу удалить дубликаты, сохраняя при этом минимальное ...

1 ответ

Большое спасибо за ответ. но на самом деле мне нужно проверить, является ли схема куста той же самой Sas-схемой, поэтому мне нужно указать "timestamptype" в кусте с Datetime в SAS, который имеет тип NUm, а также тип Integer в кусте имеет соответствующий тип данных как NUM в SAS, так что в основном мне также нужно сравнить столбец «Формат» в схеме SAS со схемой улья.

вниваю два кадра данных (в основном это схемы двух разных источников данных, один из куста, а другой из SAS9.2) Мне нужно проверить структуру для обоих источников данных, поэтому я преобразовал схему в два кадра данных, и вот они: Схема SAS ...

1 ответ

, Тогда, надеюсь, причина будет очевидна для вас, или вы можете отправить ее на вопрос.

понимаю поведение искры. Я создаю UDF, который возвращает целое число, как показано ниже import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} object Show { def main(args: Array[String]): Unit = { ...

1 ответ

stackoverflow.com/a/48095339/8371915

я есть DataFrame с двумя столбцами: df = Col1 Col2 aaa bbb ccc aaaЯ хочу закодировать строковые значения в числовые значения. Мне удалось сделать это таким образом: import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer} val indexer1 ...

2 ответа

 читатель и использовать пользовательскую логику, чтобы подтолкнуть выбор столбца непосредственно в процессе анализа. С псевдокодом:

аюсь добавить новый столбец вDataFrame, Значением этого столбца является значение другого столбца, имя которого зависит от других столбцов из того жеDataFrame. Например, учитывая это: +---+---+----+----+ | A| B| A_1| B_2| +---+---+----+----+ | ...

0 ответов

Spark: Как сопоставить Python с пользовательскими функциями Scala или Java?

аюсь применить пользовательскую функцию для Window в PySpark. Я читал, что UDAF может быть подходящим способом, но я не смог найти ничего конкретного. Чтобы привести пример (взято отсюда:Технический блог ...