Resultados de la búsqueda a petición "databricks"

1 la respuesta

Especifique cambios en el tipo de datos de varias columnas a diferentes tipos de datos en pyspark

Tengo un DataFrame df) que consta de más de 50 columnas y diferentes tipos de tipos de datos, como df3.printSchema() CtpJobId: string (nullable = true) |-- TransformJobStateId: string (nullable = true) |-- LastError: string (nullable = true) ...

3 la respuesta

El método más simple para la lematización de texto en Scala y Spark

Quiero usar la lematización en un archivo de texto: surprise heard thump opened door small seedy man clasping package wrapped. upgrading system found review spring 2008 issue moody audio backed. omg left gotta wrap review order asap . understand ...

1 la respuesta

Spark dataframe guardar en un solo archivo en la ubicación hdfs [duplicado]

Esta pregunta ya tiene una respuesta aquí: Cómo guardar datos RDD en archivos json, no en carpetas [/questions/40577546/how-to-save-rdd-data-into-json-files-not-folders] 2 respuestasTengo un marco de datos y quiero guardar en un solo archivo en ...

4 la respuesta

obtener el tipo de datos de la columna usando pyspark

Estamos leyendo datos de MongoDBCollection. Collection La columna tiene dos valores diferentes (por ejemplo:(bson.Int64,int) (int,float) ) Estoy tratando de obtener un tipo de datos usando pyspark. Mi problema es que algunas columnas tienen un ...

1 la respuesta

Cómo usar el archivo de Databricks FileStore

Tratando de usar un.dat archivo para búsqueda de ip. El archivo está en el almacén de archivos Databricks del código Scala: def getCountryCode(ip: String) { val filePath = "FileStore/maxmind/GeoIPCountry.dat" val ipLookups = new ...

1 la respuesta

Cómo TRUNCAR y / o usar comodines con Databrick

Estoy tratando de escribir un script en databricks que seleccionará un archivo basado en ciertos caracteres en el nombre del archivo o solo en la fecha en el archivo. Por ejemplo, el siguiente archivo tiene el siguiente aspecto: ...

1 la respuesta

Obtener el tamaño / longitud de una columna de matriz

Soy nuevo en la programación de Scala y esta es mi pregunta: ¿Cómo contar el número de cadenas para cada fila? Mi Dataframe se compone de una sola columna de tipo Array [String]. friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>]