Результаты поиска по запросу "apache-spark"

1 ответ

Я надеюсь, что объяснил это достаточно хорошо.

айл "asdasd.csv" имеет следующую ...

1 ответ

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#streaming-deduplication

я возникают проблемы с памятью при работе структурированного потока с агрегацией и разбиением в Spark 2.2.0: session .readStream() .schema(inputSchema) .option(OPTION_KEY_DELIMITER, OPTION_VALUE_DELIMITER_TAB) ...

1 ответ

, Мало того, что в новой потоковой архитектуре Spark, называемой «структурированной потоковой передачей», состояние встроено в конвейер и в основном абстрагировано от пользователя, чтобы иметь возможность выставлять операторы агрегирования, такие как

e Spark [https://people.csail.mit.edu/matei/papers/2013/sosp_spark_streaming.pdf] хвастается тем, что его операторы (узлы) "не сохраняют состояния". Это позволяет архитектуре Spark использовать более простые протоколы для таких вещей, ...

ТОП публикаций

3 ответа

не работает. это не обычный R, это Sparklyr!

я есть несколько раз Unix, которые я конвертирую в метки времени вsparklyr и по некоторым причинам мне также нужно преобразовать их в строки. К сожалению, кажется, что во время преобразования в строкуhive преобразует в EST (мой язык). df_new <- ...

2 ответа

Также, как упоминалось в комментариях, эта задача будет проще с использованием Spark DataFrames.

я есть следующий ...

2 ответа

 оператор, который просто принимает функцию, которая принимает набор данных пакета и идентификатор пакета.

аюсь использовать потоковую структурированную искру в режиме вывода обновления записи в файл. я нашелэтот пример ...

0 ответов

Вы можете задавать неправильный вопрос. collect_list потянет все в одного исполнителя. Таким образом, вопрос должен быть, есть ли шанс, который взорвется на вас Если это так, вы должны использовать UDAF. Если нет никакой возможности взорвать collect_list, используйте udf + collect_list.

асто приходится выполнять пользовательские агрегации на фреймах данных в spark 2.1, и я использовал эти два подхода: использование groupby / collect_list для получения всех значений в одной строке, а затем применение UDF для агрегирования ...

1 ответ

Да, это работает, спасибо! попробуйте это: df.select ("` "+ col_name +" `") .show ()

я есть датафреймdf который имеет эту схему: root |-- person.name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true) Когда я делаюdf.select("person.name") Я явно ...

0 ответов

 распространяется, но, насколько я могу судить, это не так. Спасибо за помощь.

ользуюSpark ML GBTClassifier [https://spark.apache.org/docs/2.2.0/api/python/pyspark.ml.html#pyspark.ml.classification.GBTClassifier] вpyspark обучить бинарную модель классификации на фрейме данных с ~ 400 тыс. строк и ~ 9 тыс. столбцов в ...

1 ответ

) собрать необходимое количество строк.

ользую Spark 2.1.2. Я пытаюсь понять различные отображения вкладки пользовательского интерфейса искры по мере выполнения задания. я используюspark-shell --master local и делать следующееjoin запрос: val df = Seq( (55, "Canada", -1, "", 0), (77, ...