Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

¿Cómo especificar el dialecto sql al crear un marco de datos de chispa desde JDBC?

Tengo problemas para leer datos a través de JDBC personalizado con Spark. ¿Cómo haría para anular el dialecto sql inferido a través de la URL de jdbc? La base de datos en cuestión es vitess ...

3 la respuesta

Scala - Spark In Dataframe recupera, para fila, nombre de columna con valor máximo

Tengo un DataFrame: name column1 column2 column3 column4 first 2 1 2.1 5.4 test 1.5 0.5 0.9 3.7 choose 7 2.9 9.1 2.5Quiero un nuevo marco de datos con una columna con contener, el nombre de la columna con tiene un valor máximo para la fila: | ...

1 la respuesta

Descarte de particiones de DataFrame vacías en Apache Spark

Intento repartir un DataFrame de acuerdo con una columna que tiene el DataFrameN (DigamosN=3) diferentes valores en la columna de particiónx, p.ej: val myDF = sc.parallelize(Seq(1,1,2,2,3,3)).toDF("x") // create dummy dataLo que me gusta lograr ...

2 la respuesta

¿Por qué falla la unión con "java.util.concurrent.TimeoutException: Futures expiró después de [300 segundos]"?

Estoy usando Spark 1.5. Tengo dos marcos de datos de la forma: scala> libriFirstTable50Plus3DF res1: org.apache.spark.sql.DataFrame = [basket_id: string, family_id: int] scala> linkPersonItemLessThan500DF res2: org.apache.spark.sql.DataFrame = ...

7 la respuesta

Convertir fecha de cadena a formato de fecha en marcos de datos

Estoy tratando de convertir una columna que está en formato de cadena a formato de fecha usando elto_date funciona pero devuelve valores nulos. df.createOrReplaceTempView("incidents") spark.sql("select Date from incidents").show() +----------+ | ...

1 la respuesta

Spark / Scala: llene nan con la última buena observación

Estoy usando la chispa 2.0.1 y quiero llenar los valores nan con el último valor conocido en la columna. La única referencia para chispa que pude encontrarSpark / Scala: relleno hacia adelante con la última ...

2 la respuesta

Conjunto de datos Spark 2.0 vs DataFrame

comenzando con la chispa 2.0.1 Tengo algunas preguntas. Leí mucha documentación pero hasta ahora no pude encontrar suficientes respuestas: Cuál es la diferencia entredf.select("foo")df.select($"foo")entiendo correctamente ...

0 la respuesta

Escalando cada columna de un marco de datos

Estoy tratando de escalar cada columna de un marco de datos. Primero convierto cada columna en un vector y luego uso el ml MinMax Scaler. ¿Existe una manera mejor / más elegante de aplicar la misma función a cada columna que no sea simplemente ...

1 la respuesta

No se pueden generar UUID en Spark SQL

a continuación se muestra el bloque de código y el error recibido > creating a temporary views sqlcontext.sql("""CREATE TEMPORARY VIEW temp_pay_txn_stage USING org.apache.spark.sql.cassandra OPTIONS ( table "t_pay_txn_stage", keyspace "ks_pay", ...

3 la respuesta

¿Cómo proteger la contraseña y el nombre de usuario en Spark (como para conexiones JDBC / acceder a bases de datos RDBMS)?

Tenemos un caso de uso en el que necesitamos exportar datos de HDFS a un RDBMS. yo vi estoejemplo [https://docs.databricks.com/spark/latest/data-sources/sql-databases.html]. Aquí tienen almacenado el nombre de usuario y la contraseña en el ...