Результаты поиска по запросу "apache-spark"

1 ответ

Спасибо! Это оно!

я есть столбец «true_recoms» в фрейме данных: -RECORD 17----------------------------------------------------------------- item | 20380109 true_recoms | {"5556867":1,"5801144":5,"7397596":21}Мне нужно «взорвать» этот столбец, чтобы получить ...

1 ответ

Я не верю, что он сказал это для лейблов. Логистическая регрессия иногда выигрывает от ОГЭ, а иногда она на самом деле не нужна. Разработка функций зависит от задачи обучения, характера данных и, что важнее всего, производительности модели. OHE не ведет себя так же с RF, как и в LR. @AliHelmutBaltschun

я проблема с ml.crossvalidator в Scala Spark при использовании одного горячего энкодера. это мой код val tokenizer = new Tokenizer(). setInputCol("subjects"). setOutputCol("subject") //CountVectorizer / TF val countVectorizer = ...

1 ответ

 параметр конфигурации на количество разделов, которые вы хотите.

я был вопрос, который связан с Pyspark'srepartitionBy() функция, которую я первоначально разместил в комментарииэтот ...

ТОП публикаций

0 ответов

Нет, я получаю гораздо больше файлов на входе (около тысячи разделов)

ускаю простой тестовый анализ приложений, который читает данные за один год и записывает в Hive такое же количество данных, разбитых по дням. Перед записью я объединяю 15 разделов в каждом файле, чтобы не было много маленьких записанных файлов. Я ...

1 ответ

, :)

я есть фрейм данных вPyspark как ниже. я бы хотелcount значения в двух столбцах на основе некоторыхlists и заполните новые столбцы для каждогоlist df.show() +---+-------------+-------------_+ | id| device| ...

2 ответа

Вы можете прочитать JSON, используя Spark, и получить его, используя обычные операции искры.

ец Json "alternateId": [ { "type": "POPID", "value": "1-7842-0759-001" }, { "type": "CAMID", "value": "CAMID 0000-0002-7EC1-02FF-O-0000-0000-2" }, { "type": "ProgrammeUuid", "value": "1ddb01e2-6146-4e10-bba9-dde40d0ad886" } ]Я хочу обновить ...

1 ответ

) тогда зачем нам пиарроу на каждом узле установлен?

аюсь применить функцию к каждой группе набора данных в pyspark. Первая ошибка, которую я получил, была Py4JError: An error occurred while calling o62.__getnewargs__. Trace: py4j.Py4JException: Method __getnewargs__([]) does not existЧтобы ...

0 ответов

Спасибо:). Все еще не получил никакого ответа для нового / старого. Можете ли вы помочь мне. Спасибо.

ытался разобрать XML в spark 2.2 с java 1.8, но это не дает ожидаемого набора данных. образец xml - <?xml version="1.0" encoding="UTF-8"?> <RECORD> <PROP NAME="product.url"> <PVAL>url1</PVAL> </PROP> <PROP NAME="product.id"> <PVAL>123</PVAL> ...

1 ответ

в качестве альтернативы вы можете использовать преобразование в строку, а затем разбить строку и преобразовать обратно в последовательность

аюсь преобразовать массив строк в байтовый массив в Spark и повторно преобразовать массив байтов в массив строк. Тем не менее, я не получаю массив String обратно, как я намерен. Вот код - // UDFs for converting Array[String] to byte array and ...

2 ответа

 декларация также. Тоже не сработало.

аюсь написать UDF, который возвращает сложный тип: private val toPrice = UDF1<String, Map<String, String>> { s -> val elements = s.split(" ") mapOf("value" to elements[0], "currency" to elements[1]) } val type = ...