Результаты поиска по запросу "pyspark"

1 ответ

Я надеюсь, что объяснил это достаточно хорошо.

айл "asdasd.csv" имеет следующую ...

1 ответ

Ах, это здорово. Спасибо, майанк, но я приму ответ @pault, поскольку он определенно проще. Но спасибо вам обоим!

что я делаю ниже, я опускаю столбецA изDataFrame потому что я хочу применить преобразование (здесь я простоjson.loads строка JSON) и замените старый столбец на преобразованный. После преобразования я просто соединяю два результирующих фрейма ...

2 ответа

Также, как упоминалось в комментариях, эта задача будет проще с использованием Spark DataFrames.

я есть следующий ...

ТОП публикаций

0 ответов

 распространяется, но, насколько я могу судить, это не так. Спасибо за помощь.

ользуюSpark ML GBTClassifier [https://spark.apache.org/docs/2.2.0/api/python/pyspark.ml.html#pyspark.ml.classification.GBTClassifier] вpyspark обучить бинарную модель классификации на фрейме данных с ~ 400 тыс. строк и ~ 9 тыс. столбцов в ...

3 ответа

https://docs.aws.amazon.com/glue/latest/dg/dev-endpoint-tutorial-repl.html

ел бы иметь возможность написатьScala в моей локальной IDE, а затем разверните его в AWS Glue как часть процесса сборки. Но у меня возникают проблемы с поиском библиотек, необходимых для созданияGlueApp скелет, сгенерированный ...

1 ответ

Удачи в работе с базой данных SO ;-)

ва использую Spark. Как я могу получить инвертированный индекс для CSV-файла с помощью Spark? У меня есть CSV-файл df.show() +--------+--------------------+--------------------+----------+ | id| title| ...

3 ответа

 чтобы получить контекст для каждого теста. Это обычно добавляет много времени на выполнение тестов, так как создание нового контекста искры в настоящее время стоит дорого.

я есть сценарий вpyspark как ниже. Я хочу провести модульное тестированиеfunction в этом сценарии. def rename_chars(column_name): chars = ((' ', '_&'), ('.', '_$')) new_cols = reduce(lambda a, kv: a.replace(*kv), chars, column_name) return ...

1 ответ

Или, если вы хотите добавить ровно 3 нуля впереди:

ел бы добавить строку в существующий столбец. Например,df['col1'] имеет значения как'1', '2', '3' и т. д., и я хотел бы согласовать строку'000' слева отcol1 так что я могу получить столбец (новый или заменить старый не имеет значения) как'0001', ...

0 ответов

Не уверен, как это исправить. Может ли кто-нибудь помочь мне в этом, пожалуйста?

я есть ниже код, через который я пытаюсь сделать регулярное выражение найти и заменить в искре с помощью pyspark. файлkey имеет 182417 строк и файлjob имеет 234085 строк. Я исполняю pyspark на моей виртуальной машине. df = ...

1 ответ

df = sqlContext.read \ .., похоже, не работает с spark 2.3.1, даже если я добавлю в кавычки и экранирование.

от вопрос уже есть ответ здесь: Загрузить файл CSV с помощью Spark [/questions/28782940/load-csv-file-with-spark] 11 ответовrdd1=sc.textFile('/user/training/checkouts').map(lambda line:line.split(',')).map(lambda ...