Результаты поиска по запросу "apache-spark"

1 ответ

 реализация, которая позже может быть преобразована в ограничения ресурсов для менеджера кластера (не обязательно YARN).

оложим, что есть задание Spark, которое собирается прочитать файл с именем records.txt из HDFS и выполнить некоторые преобразования и одно действие (записать обработанный вывод в HDFS). Задание будет отправлено в режим кластера YARN. Предположим ...

1 ответ

который должен дать вам

оложим, если у меня есть один столбец с одной строкой +---+ | id| +---+ | 4| +---+тогда как я могу генерировать строки в зависимости от значения столбца +---+ | id| +---+ | 1 | |---| | 2 | |---| | 3 | |---| | 4 | +---+

1 ответ

stackoverflow.com/q/49734374/8371915

очная информация: я делаю простую двоичную классификацию, используя RandomForestClassifier из pyspark.ml. Перед передачей данных для обучения мне удалось использовать VectorIndexer, чтобы решить, будут ли функции числовыми или категоричными, ...

ТОП публикаций

1 ответ

Пожалуйста, не обновляйте вопрос, как только он будет принят как ответ, потому что может показаться, что ответ не является адекватным для вопроса. Вы всегда можете задать другой вопрос. А пока я обновил ответ. но, пожалуйста, не делай этого в будущем @ user9367133

я есть фрейм данных вpyspark как ниже. df.show() +---+-------+----+ | id| type|s_id| +---+-------+----+ | 1| ios| 11| | 1| ios| 12| | 1| ios| 13| | 1| ios| 14| | 1|android| 15| | 1|android| 16| | 1|android| 17| | 2| ios| 21| | 2|android| 18| ...

1 ответ

Выше для вашей справки

ал получать следующую ошибку каждый раз, когда я пытаюсь собрать мой RDD. Это случилось после того, как я установил Java 10.1. Конечно, я вынул его и переустановил, та же ошибка. Затем я установил Java 9.04 ту же ошибку. Затем я вырвал Python ...

3 ответа

совершить:

ользую PyCharm 2018.1, используя Python 3.4 с Spark 2.3, установленным через pip в virtualenv. На локальном хосте нет установки hadoop, поэтому нет установки Spark (таким образом, нет SPARK_HOME, HADOOP_HOME и т. Д.) Когда я пытаюсь это: from ...

1 ответ

 значения автоматически. Я отредактировал ответ.

способ получить новый столбец во фрейме данных в Scala, который вычисляетmin/max значений вcol1, col2...,col10 для каждого ряда. Я знаю, что могу сделать это с помощью UDF, но, возможно, есть более простой способ. Спасибо!

2 ответа

Я отредактировал свой ответ с примером кода. Извинения первая строка объединена с моим комментарием

ры заимствованы из Интернета, благодаря тем, кто лучше понимает.Следующее можно найти на различных форумах в отношении mapPartitions и map: ... Consider the case of Initializing a database. If we are using map() or foreach(), the number of times ...

1 ответ

Спасибо, это был Spark 2.2-балл-что-то. Похоже, это уже было «исправлено» в смысле выдачи сообщения об ошибке в ветке 2.3.

я есть работа Spark, написанная на Python, которая ведет себя странно при проверке ошибок в своих данных. Упрощенная версия ниже: from pyspark.sql import SparkSession from pyspark.sql.types import StringType, StructType, StructField, DoubleType ...

1 ответ

 только об этой конкретной проблеме.

гда думал, что API набора данных / dataframe одинаковы ... и единственное отличие состоит в том, что API набора данных обеспечит вам безопасность времени компиляции. Правильно ? Итак .. У меня очень простой случай: case class Player (playerID: ...