Результаты поиска по запросу "databricks"
drive.google.com/file/d/1NA8B1_pBH_vQB1mduxS7eao5BtFiY3GP/...
аюсь написать скрипт в блоках данных, который будет выбирать файл на основе определенных символов в имени файла или только на отметке даты в файле. Например, следующий файл выглядит следующим ...
Использование локальных файловых интерфейсов ввода-вывода API
сь использовать.dat файл для поиска IP. Файл находится в хранилище файлов Databricks из кода Scala: def getCountryCode(ip: String) { val filePath = "FileStore/maxmind/GeoIPCountry.dat" val ipLookups = new IpLookups(geoFile = Option(new ...
Простейший метод лемматизации текста в Scala и Spark
Я хочу использовать лемматизацию для текстового файла:
Это не относится здесь. Это специфический для pyspark.
таем данные из MongoDBCollection. Collection столбец имеет два разных значения (например,(bson.Int64,int) (int,float) ). Я пытаюсь получить тип данных, используя pyspark. Моя проблема в том, что некоторые столбцы имеют разные типы ...
Сохранение данных в формате Spark в одном файле в папке hdfs [дубликаты]
На этот вопрос уже есть ответ здесь:Как сохранить данные RDD в файлы json, а не в папки 2 ответаУ меня есть dataframe, и я хочу сохранить в одном файле в фор...
Или, что эквивалентно, вы можете использовать
я есть датафрейм (df), который состоит из более чем 50 столбцов и различных типов типов данных, таких как df3.printSchema() CtpJobId: string (nullable = true) |-- TransformJobStateId: string (nullable = true) |-- LastError: string (nullable = ...
Чтобы добавить в качестве нового столбца:
ичок в программировании Scala, и это мой вопрос: как посчитать количество строк для каждой строки? Мой Dataframe состоит из одного столбца типа Array [String]. friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>]