Resultados de la búsqueda a petición "apache-spark"
Spark Scala Dividir el marco de datos en el mismo número de filas
Tengo un Dataframe y deseo dividirlo en un número igual de filas. En otras palabras, quiero una lista de marcos de datos donde cada uno es un subconjunto desunido del marco de datos original. Digamos que el dataframer de entrada es el ...
¿Cómo obtener los valores en DataFrame con el DataType correcto?
Cuando intenté obtener algunos valores en unDataFrame, me gusta: df.select("date").head().get(0) // type: AnyEl tipo de resultado esAny, que no se espera. Desde undataframe contiene elschema de los datos, debe saber elDataType para cadacolumn, ...
TensorFrames no funciona con Tensorflow en Data Science Experience
Este es un seguimiento deesta [https://stackoverflow.com/questions/44120979/how-do-i-implement-the-tensorframes-spark-package-on-data-science-experience] pregunta. Importé los siguientes frascos en mi ...
Cómo usar s3 con Apache spark 2.2 en el shell Spark
Estoy tratando de cargar datos de un bucket de Amazon AWS S3, mientras que en el shell Spark. He consultado los siguientes recursos: Análisis de archivos de Amazon S3 con Apache ...
Convertir columna que contiene múltiples formatos de fecha de cadena a DateTime en Spark
Tengo una columna de fecha en mi SparkDataDrame que contiene múltiples formatos de cadena. Me gustaría enviarlos a DateTime. Los dos formatos en mi columna son: mm/dd/yyyy; yyyyy-mm-ddMi solución hasta ahora es usar un UDF para cambiar ...
Particionar en chispa mientras lee desde RDBMS a través de JDBC
Estoy ejecutando spark en modo de clúster y leyendo datos de RDBMS a través de JDBC. Según chispadocs [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] , estos parámetros de partición describen cómo ...
¿Cómo crear un marco de datos de la lista en Spark SQL?
Versión Spark: 2.1 Por ejemplo, en pyspark, creo una lista test_list = [['Hello', 'world'], ['I', 'am', 'fine']] luego, cómo crear un marco de datos desde test_list, donde el tipo de marco de datos es el siguiente: DataFrame[words: array<string>]
Excepción en el hilo "principal" java.lang.NoClassDefFoundError: org / spark_project / guava / cache / CacheLoader
Cuando estoy tratando de ejecutar mi proyecto kafka spark. Me aparece el siguiente error: Exception in thread "main" java.lang.NoClassDefFoundError: org/spark_project/guava/cache/CacheLoader ...
¿Cómo agregar un nuevo campo a la columna de estructura?
Tengo un marco de datos con algo como estodf.printSchema: root |-- ts: timestamp (nullable = true) |-- geoip: struct (nullable = true) | |-- city: string (nullable = true) | |-- continent: string (nullable = true) | |-- location: struct ...
¿Cómo convertir Array of Json Strings en Dataset de columnas específicas en Spark 2.2.0?
tengo unDataset<String> ds que consiste en filas json. Ejemplo de fila de Json (este es solo un ejemplo de una fila en el conjunto de datos) [ "{"name": "foo", "address": {"state": "CA", "country": "USA"}, "docs":[{"subject": "english", "year": ...