Результаты поиска по запросу "apache-spark"

1 ответ

Большое спасибо за совет, Был еще один проект, где мне нужно добавить это исключение. После этого все заработало.

чение ниже, когда я попытался выполнить модульные тесты для своего кода потоковой передачи искры в окнах SBT, используя самое масштабное. sbt testOnly<<ClassName>> * * * * * * 2018-06-18 02:39:00 ОШИБКА Исполнитель: 91 - Исключение в задаче ...

1 ответ

) ради демонстраций:

ользую Spark, и я хотел бы обучить модели машинного обучения. Из-за плохих результатов я хотел бы отобразить ошибку, допущенную моделью в каждую эпоху обучения (в обучении и наборе тестовых данных). Затем я буду использовать эту информацию, ...

1 ответ

 режим, каждый рабочий поток должен работать независимо от других, не так ли?

аписанииdataframe вparquet с помощьюpartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path)Я ожидал бы, что каждый записываемый раздел выполнялся независимо отдельной задачей и параллельно количеству работников, назначенных на ...

ТОП публикаций

1 ответ

Например, с помощью команды kill в Linux

дал образ докера моего приложения, когда просто запускаю его из скрипта bash, он работает правильно. Однако, когда я запускаю его как часть файла docker-compose, приложение зависает в сообщении: 18/06/27 13:17:18 INFO StateStoreCoordinatorRef: ...

0 ответов

До вчерашнего дня все работало нормально. Не уверен, что является причиной этой ошибки. Скорее всего, некоторые настройки связаны. Как я могу это исправить?

аюсь запустить операцию сбора данных на СДР, созданную из Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Вот несколько наблюдений из obj_filter, obj_filter.show (3): +--------+----------+---------+ | ...

0 ответов

Опять же, есть ли отдельные исполнители, выполняющие больше работы, чем другие?

аю строку длиной более 100 Кбайт и разделяю столбцы по ширине. У меня есть около 16K столбцов, которые я разделил сверху строки на основе ширины. но при записи в паркет я использую код ниже rdd1=spark.sparkContext.textfile("file1") { var now=0 ...

1 ответ

Это блестящий! Спасибо!

у внести изменения в столбец в кадре данных. Столбец представляет собой массив для целых чисел. Я хочу заменить элементы массива, взяв индекс из другого массива и заменив этот элемент элементом из третьего массива. Пример: у меня есть три столбца ...

1 ответ

Технически возможно обойти это, с осторожным распределением ресурсов и использованием пулов планирования уровня менеджера или даже отдельного менеджера кластера с его собственным набором или ресурсами, но это не то, для чего предназначен Spark, он не поддерживается и в целом приведет к хрупкой и запутанной конструкции, где корректность зависит от деталей конфигурации, выбора конкретного менеджера кластера и общего использования кластера.

у Spark Jobs, которые говорят с Кассандрой в Datastax. Иногда при выполнении последовательности шагов в задании Spark легче просто получить новый RDD, чем присоединиться к старому. Вы можете сделать это, позвонивSparkContext [getOrCreate][1] ...

2 ответа

Показано, что число данных в кадре равно 4067

ботаем спарк 2.3.0 наAWW EMR, ПоследующийDataFrame "df"не пустой и скромного размера: scala> df.count res0: Long = 4067Следующий код хорошо работает для записиdf вhdfs: scala> val hdf = spark.read.parquet("/tmp/topVendors") ...

1 ответ

 паркет без формата

ользуюИскровым Java. Мне нужно знать, есть ли разница (производительность и т. Д.) Между следующими методами записи в Hadoop: ds.write().mode(mode).format("orc").save(path);Или же ds.write().mode(mode).orc(path);Благодарю.