Resultados de la búsqueda a petición "apache-spark-sql"
¿Cómo especificar el dialecto sql al crear un marco de datos de chispa desde JDBC?
Tengo problemas para leer datos a través de JDBC personalizado con Spark. ¿Cómo haría para anular el dialecto sql inferido a través de la URL de jdbc? La base de datos en cuestión es vitess ...
Scala - Spark In Dataframe recupera, para fila, nombre de columna con valor máximo
Tengo un DataFrame: name column1 column2 column3 column4 first 2 1 2.1 5.4 test 1.5 0.5 0.9 3.7 choose 7 2.9 9.1 2.5Quiero un nuevo marco de datos con una columna con contener, el nombre de la columna con tiene un valor máximo para la fila: | ...
Descarte de particiones de DataFrame vacías en Apache Spark
Intento repartir un DataFrame de acuerdo con una columna que tiene el DataFrameN (DigamosN=3) diferentes valores en la columna de particiónx, p.ej: val myDF = sc.parallelize(Seq(1,1,2,2,3,3)).toDF("x") // create dummy dataLo que me gusta lograr ...
¿Por qué falla la unión con "java.util.concurrent.TimeoutException: Futures expiró después de [300 segundos]"?
Estoy usando Spark 1.5. Tengo dos marcos de datos de la forma: scala> libriFirstTable50Plus3DF res1: org.apache.spark.sql.DataFrame = [basket_id: string, family_id: int] scala> linkPersonItemLessThan500DF res2: org.apache.spark.sql.DataFrame = ...
Convertir fecha de cadena a formato de fecha en marcos de datos
Estoy tratando de convertir una columna que está en formato de cadena a formato de fecha usando elto_date funciona pero devuelve valores nulos. df.createOrReplaceTempView("incidents") spark.sql("select Date from incidents").show() +----------+ | ...
Spark / Scala: llene nan con la última buena observación
Estoy usando la chispa 2.0.1 y quiero llenar los valores nan con el último valor conocido en la columna. La única referencia para chispa que pude encontrarSpark / Scala: relleno hacia adelante con la última ...
Conjunto de datos Spark 2.0 vs DataFrame
comenzando con la chispa 2.0.1 Tengo algunas preguntas. Leí mucha documentación pero hasta ahora no pude encontrar suficientes respuestas: Cuál es la diferencia entredf.select("foo")df.select($"foo")entiendo correctamente ...
Escalando cada columna de un marco de datos
Estoy tratando de escalar cada columna de un marco de datos. Primero convierto cada columna en un vector y luego uso el ml MinMax Scaler. ¿Existe una manera mejor / más elegante de aplicar la misma función a cada columna que no sea simplemente ...
No se pueden generar UUID en Spark SQL
a continuación se muestra el bloque de código y el error recibido > creating a temporary views sqlcontext.sql("""CREATE TEMPORARY VIEW temp_pay_txn_stage USING org.apache.spark.sql.cassandra OPTIONS ( table "t_pay_txn_stage", keyspace "ks_pay", ...
¿Cómo proteger la contraseña y el nombre de usuario en Spark (como para conexiones JDBC / acceder a bases de datos RDBMS)?
Tenemos un caso de uso en el que necesitamos exportar datos de HDFS a un RDBMS. yo vi estoejemplo [https://docs.databricks.com/spark/latest/data-sources/sql-databases.html]. Aquí tienen almacenado el nombre de usuario y la contraseña en el ...