Результаты поиска по запросу "apache-spark"
на
я создаю банку своего приложения Spark и пытаюсь запустить его, используяspark-submitЯ получаю следующую ошибку. Это команда, которую я использовал для запуска. spark-submit --executor-memory 1g ...
на основном DF и выбранном DF @EmmaNej
я есть искраDataFrame который имеет один столбец, который имеетмного нулейи очень мало (только 0,01% из них). Я хотел бы взять случайную подвыборку, но стратифицированную - чтобы в этом столбце сохранялось отношение 1 к 0. Можно ли это сделать ...
но я не пробовал это).
ю, что могу использовать собственный диалект для правильного отображения между моей базой данных и спарк, но как я могу создать собственную схему таблицы с конкретными типами данных поля и длины, когда я использую спаркjdbc.write параметры? Я ...
Следующий пример показывает разницу и, надеюсь, даст вам некоторое представление о том, почему он мощный.
я есть следующие фрагменты кода, и мне интересно, в чем разница между этими двумя и какой из них мне следует использовать? Я использую спарк 2.2. Dataset<Row> df = sparkSession.readStream() .format("kafka") ...
Использование локальных файловых интерфейсов ввода-вывода API
сь использовать.dat файл для поиска IP. Файл находится в хранилище файлов Databricks из кода Scala: def getCountryCode(ip: String) { val filePath = "FileStore/maxmind/GeoIPCountry.dat" val ipLookups = new IpLookups(geoFile = Option(new ...
Большое спасибо за ваш ответ. Я думаю, я посмотрю, сработает ли сбор данных в R для моей программы. Если нет, я посмотрю в расширениях Scala.
я есть широкий фрейм данных из нескольких тысяч столбцов примерно на миллион строк, для которого я хотел бы рассчитать итоговые суммы строк. Мое решение пока ниже. Я использовал:dplyr - сумма нескольких столбцов с использованием регулярных ...
не кажется тривиальным Кажется, даже библиотека spark-avro сделала выбор в отношении того, как она будет обрабатывать различные типы в различных случаях. Есть ли какой-либо источник или любая помощь, которую я мог бы получить по этому поводу?
денный ниже код читает сообщения от Kafka, а сообщения находятся в Avro, так как мне проанализировать сообщение и поместить его в информационный кадр в Spark 2.2.0? Dataset<Row> df = sparkSession.readStream() ...
Но это не будет писать ни одного файла с расширением CSV. Он создаст папку с part-m-0000n из n разделов вашего набора данных.
ключен к кластеру с помощьюssh и я отправляю программу в кластер используя spark-submit --master yarn myProgram.pyЯ хочу сохранить результат в текстовом файле, и я попытался использовать следующие ...
и панды одинаково:
я есть два CSV-файла, один из которых содержит ключевые слова для фильмов, другой содержит актеры и съемочную группу.keywords.csv файл выглядит так: $ head -n 3 keywords.csv id,keywords 862,"[{'id': 931, 'name': 'jealousy'}, {'id': 4290, 'name': ...
Спасибо
идея, почему я получаю результат ниже? scala> val b = to_timestamp($"DATETIME", "ddMMMYYYY:HH:mm:ss") b: org.apache.spark.sql.Column = to_timestamp(`DATETIME`, 'ddMMMYYYY:HH:mm:ss') scala> sourceRawData.withColumn("ts", ...