Результаты поиска по запросу "apache-spark"

1 ответ

 на

я создаю банку своего приложения Spark и пытаюсь запустить его, используяspark-submitЯ получаю следующую ошибку. Это команда, которую я использовал для запуска. spark-submit --executor-memory 1g ...

1 ответ

 на основном DF и выбранном DF @EmmaNej

я есть искраDataFrame который имеет один столбец, который имеетмного нулейи очень мало (только 0,01% из них). Я хотел бы взять случайную подвыборку, но стратифицированную - чтобы в этом столбце сохранялось отношение 1 к 0. Можно ли это сделать ...

1 ответ

 но я не пробовал это).

ю, что могу использовать собственный диалект для правильного отображения между моей базой данных и спарк, но как я могу создать собственную схему таблицы с конкретными типами данных поля и длины, когда я использую спаркjdbc.write параметры? Я ...

ТОП публикаций

1 ответ

Следующий пример показывает разницу и, надеюсь, даст вам некоторое представление о том, почему он мощный.

я есть следующие фрагменты кода, и мне интересно, в чем разница между этими двумя и какой из них мне следует использовать? Я использую спарк 2.2. Dataset<Row> df = sparkSession.readStream() .format("kafka") ...

1 ответ

Использование локальных файловых интерфейсов ввода-вывода API

сь использовать.dat файл для поиска IP. Файл находится в хранилище файлов Databricks из кода Scala: def getCountryCode(ip: String) { val filePath = "FileStore/maxmind/GeoIPCountry.dat" val ipLookups = new IpLookups(geoFile = Option(new ...

1 ответ

Большое спасибо за ваш ответ. Я думаю, я посмотрю, сработает ли сбор данных в R для моей программы. Если нет, я посмотрю в расширениях Scala.

я есть широкий фрейм данных из нескольких тысяч столбцов примерно на миллион строк, для которого я хотел бы рассчитать итоговые суммы строк. Мое решение пока ниже. Я использовал:dplyr - сумма нескольких столбцов с использованием регулярных ...

1 ответ

 не кажется тривиальным Кажется, даже библиотека spark-avro сделала выбор в отношении того, как она будет обрабатывать различные типы в различных случаях. Есть ли какой-либо источник или любая помощь, которую я мог бы получить по этому поводу?

денный ниже код читает сообщения от Kafka, а сообщения находятся в Avro, так как мне проанализировать сообщение и поместить его в информационный кадр в Spark 2.2.0? Dataset<Row> df = sparkSession.readStream() ...

4 ответа

Но это не будет писать ни одного файла с расширением CSV. Он создаст папку с part-m-0000n из n разделов вашего набора данных.

ключен к кластеру с помощьюssh и я отправляю программу в кластер используя spark-submit --master yarn myProgram.pyЯ хочу сохранить результат в текстовом файле, и я попытался использовать следующие ...

1 ответ

и панды одинаково:

я есть два CSV-файла, один из которых содержит ключевые слова для фильмов, другой содержит актеры и съемочную группу.keywords.csv файл выглядит так: $ head -n 3 keywords.csv id,keywords 862,"[{'id': 931, 'name': 'jealousy'}, {'id': 4290, 'name': ...

3 ответа

Спасибо

идея, почему я получаю результат ниже? scala> val b = to_timestamp($"DATETIME", "ddMMMYYYY:HH:mm:ss") b: org.apache.spark.sql.Column = to_timestamp(`DATETIME`, 'ddMMMYYYY:HH:mm:ss') scala> sourceRawData.withColumn("ts", ...