Результаты поиска по запросу "apache-spark"

1 ответ

Как заархивировать два (или более) DataFrame в Spark

У меня два

1 ответ

Спарк раздел намного медленнее чем без него

Я проверил написание с:

3 ответа

Карта не может быть сериализуемой в Scala?

Я новичок в Скале. Почему функция «карта» не сериализуется? Как сделать его сериализуемым? Например, если мой код похож на ниже:

ТОП публикаций

1 ответ

Исключение NullPointerException с saveAsTextFile

Я получаю NPE, когда пытаюсь объединиться и сохранить RDD.Код работает локально,а также работает на кластере в оболочке scala, но выдает ошибку при отправке ...

1 ответ

Метрики Spark на примере WordCount

Я читаю раздел Метрики насайт искры, Я хочу попробовать это на примере WordCount, я не могу заставить его работать.spark / conf / metrics.properties:

1 ответ

Почему использование UDF в запросе SQL приводит к декартовому произведению?

Я виделDatabricks-Вопрос и не понимаюПочему использование UDF приводит к декартову произведению вместо полного внешнего соединения? Очевидно, что декартово п...

1 ответ

Могу ли я написать простой текстовый файл HDFS (или локальный) из программы Spark, а не из RDD?

У меня есть программа Spark (в Scala) и

1 ответ

Кодировать и собрать несколько функций в PySpark

У меня есть класс Python, который я использую для загрузки и обработки некоторых данных в Spark. Среди различных вещей, которые мне нужно сделать, я создаю с...

1 ответ

Как разделить СДР на два или более СДР?

Я ищу способ разделить RDD на два или более RDD. Самое близкое, что я видел, этоScala Spark: разбить коллекцию на несколько RDD? который все еще один RDD.Есл...

6 ответов

Чтение CSV-файлов в Zeppelin с использованием spark-CSV

Я хочу читать CSV-файлы в Zeppelin и хотел бы использовать пакет spark-csv для databricks:https://github.com/databricks/spark-csvВ spark-shell я могу использ...