Resultados de la búsqueda a petición "databricks"
Especifique cambios en el tipo de datos de varias columnas a diferentes tipos de datos en pyspark
Tengo un DataFrame df) que consta de más de 50 columnas y diferentes tipos de tipos de datos, como df3.printSchema() CtpJobId: string (nullable = true) |-- TransformJobStateId: string (nullable = true) |-- LastError: string (nullable = true) ...
El método más simple para la lematización de texto en Scala y Spark
Quiero usar la lematización en un archivo de texto: surprise heard thump opened door small seedy man clasping package wrapped. upgrading system found review spring 2008 issue moody audio backed. omg left gotta wrap review order asap . understand ...
Spark dataframe guardar en un solo archivo en la ubicación hdfs [duplicado]
Esta pregunta ya tiene una respuesta aquí: Cómo guardar datos RDD en archivos json, no en carpetas [/questions/40577546/how-to-save-rdd-data-into-json-files-not-folders] 2 respuestasTengo un marco de datos y quiero guardar en un solo archivo en ...
obtener el tipo de datos de la columna usando pyspark
Estamos leyendo datos de MongoDBCollection. Collection La columna tiene dos valores diferentes (por ejemplo:(bson.Int64,int) (int,float) ) Estoy tratando de obtener un tipo de datos usando pyspark. Mi problema es que algunas columnas tienen un ...
Cómo usar el archivo de Databricks FileStore
Tratando de usar un.dat archivo para búsqueda de ip. El archivo está en el almacén de archivos Databricks del código Scala: def getCountryCode(ip: String) { val filePath = "FileStore/maxmind/GeoIPCountry.dat" val ipLookups = new ...
Cómo TRUNCAR y / o usar comodines con Databrick
Estoy tratando de escribir un script en databricks que seleccionará un archivo basado en ciertos caracteres en el nombre del archivo o solo en la fecha en el archivo. Por ejemplo, el siguiente archivo tiene el siguiente aspecto: ...
Obtener el tamaño / longitud de una columna de matriz
Soy nuevo en la programación de Scala y esta es mi pregunta: ¿Cómo contar el número de cadenas para cada fila? Mi Dataframe se compone de una sola columna de tipo Array [String]. friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>]