Результаты поиска по запросу "apache-spark"

1 ответ

Извините, мой вопрос: мне нужно, чтобы спарк отправил приложение spark на кластер k8, используя Aws lambda (так как он поддерживает как триггер файла s3, так и cron), но как я могу спарк-отправить с ws lambda без интерфейса rest? Я вижу, вы упомянули хак, но я не совсем понял, как использовать для спарк-отправки на k8 master.

теперь, когда k8s интегрирован напрямую с spark в версии 2.3, моя подача искры с консоли выполняется правильно на master-устройстве kuberenetes без каких-либо работающих модулей master-устройства spark, spark обрабатывает все детали ...

1 ответ

, Однако, это немного изменится в зависимости от типа столбца (здесь ваш столбец имени - это строка, а не структура). Если вы хотите получить более подробный ответ для своего варианта использования, я бы рекомендовал задать новый вопрос на сайте с дополнительной информацией (вы можете оставить ссылку в комментарии здесь).

я есть датафреймdf со следующей схемой: root |-- city_name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true)Что я хочу сделать, это добавить вложенный столбец, ...

3 ответа

 когда используешь

ка ознакомиться с документацией Spark 2.3 о том, как развертывать задания в кластере Kubernetes 1.9.3: http://spark.apache.org/docs/latest/running-on-kubernetes.html [http://spark.apache.org/docs/latest/running-on-kubernetes.html] Кластер ...

ТОП публикаций

1 ответ

Удачи в работе с базой данных SO ;-)

ва использую Spark. Как я могу получить инвертированный индекс для CSV-файла с помощью Spark? У меня есть CSV-файл df.show() +--------+--------------------+--------------------+----------+ | id| title| ...

1 ответ

, Похоже, проблема в обеих версиях, в 2.2.0 есть более простой обходной путь.

я проблемы со схемой синхронизации таблиц Hive между Spark и Hive в кластере Mapr с Spark 2.1.0 и Hive 2.1.1. Мне нужно попытаться решить эту проблему специально для управляемых таблиц, но проблему можно воспроизвести с помощью неуправляемых / ...

2 ответа

Этот подход позволяет избежать ненужной реструктуризации RDD / фреймов данных.

рейма данных, содержащего сочетание строковых и числовых типов данных, целью является создание новогоfeatures столбец, который являетсяminhash из всех них. Хотя это можно сделать, выполнивdataframe.toRDD это дорого делать, когда следующим шагом ...

2 ответа

Надеюсь это поможет!

я искра датафрейм выглядит так: id DataArray a array(3,2,1) b array(4,2,1) c array(8,6,1) d array(8,2,4)Я хочу преобразовать этот фрейм данных в: id col1 col2 col3 a 3 2 1 b 4 2 1 c 8 6 1 d 8 2 4Какую функцию я должен использовать?

1 ответ

Текущая версия Spark (2.3) не поддерживает ни JDK 9, ни 10. Последняя поддерживаемая версия JDK - JDK 8. Вам следует понизить версию Java.

аюсь установить spark2.3.0, точнее, это spark-2.3.0-bin-hadoppo2.7 'D: \ spark \ bin' уже добавлен в переменную окружения PATH. Между тем, JDK-10 установлен. Hadoop не устанавливается. Но Google говорит, что искра может работать без hadoop. Вот ...

1 ответ

 не может быть преобразован в

ли конвертировать потоковоеo.a.s.sql.Dataset вDStream? Если так, то как? Я знаю, как преобразовать его в RDD, но это в контексте потоковой передачи.

0 ответов

Не уверен, как это исправить. Может ли кто-нибудь помочь мне в этом, пожалуйста?

я есть ниже код, через который я пытаюсь сделать регулярное выражение найти и заменить в искре с помощью pyspark. файлkey имеет 182417 строк и файлjob имеет 234085 строк. Я исполняю pyspark на моей виртуальной машине. df = ...