Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

¿Cuál es el tamaño máximo para un objeto de difusión en Spark?

Cuando use Dataframeemisión [http://spark.apache.org/docs/2.0.0/api/java/org/apache/spark/sql/functions.html#broadcast(org.apache.spark.sql.Dataset)] función o el ...

3 la respuesta

Error de PySpark: AttributeError: el objeto 'NoneType' no tiene el atributo '_jvm'

Tengo un conjunto de datos de marca de tiempo que está en formato de Y he escrito un udf en pyspark para procesar este conjunto de datos y devolverlo como Mapa de valores clave. Pero me estoy poniendo debajo del mensaje de error. Conjunto de ...

1 la respuesta

El esquema para el tipo Any no es compatible

Estoy tratando de crear una chispa UDF para extraer un mapa de pares (clave, valor) de una clase de caso definida por el usuario. La función de escala parece funcionar bien, pero cuando trato de convertir eso a un UDF en spark2.0, me encuentro ...

1 la respuesta

Spark Structured Streaming usando sockets, configure SCHEMA, Display DATAFRAME en la consola

¿Cómo puedo configurar un esquema para una transmisión?DataFrame en PySpark from pyspark.sql import SparkSession from pyspark.sql.functions import explode from pyspark.sql.functions import split # Import data types from pyspark.sql.types import ...

1 la respuesta

¿La opción ignorar de la función jdbc de Pyspark DataFrameWriter ignora toda la transacción o solo ofende las filas?

El PysparkDataFrameWriter la clase tiene unjdbc función [http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter.jdbc] para escribir un marco de datos en sql. Esta función tiene un--ignore opción que dice la ...

2 la respuesta

El valor de la configuración "spark.yarn.executor.memoryOverhead"?

El valor despark.yarn.executor.memoryOverhead en un trabajo de Spark con YARN debe asignarse a la aplicación o solo al valor máximo?

1 la respuesta

PySpark: calcule el máximo de filas del subconjunto de columnas y agregue a un marco de datos existente

Me gustaría calcular el máximo de un subconjunto de columnas para cada fila y agregarlo como una nueva columna para el existenteDataframe. Logré hacer esto de una manera muy incómoda: def add_colmax(df,subset_columns,colnm): ''' calculate the ...

4 la respuesta

Obtener el número actual de particiones de un DataFrame

¿Hay alguna forma de obtener el número actual de particiones de un DataFrame? Verifiqué el DataFrame javadoc (spark 1.6) y no encontré un método para eso, ¿o simplemente me lo perdí? (En el caso de JavaRDD, hay un método getNumPartitions ()).

3 la respuesta

Definición del esquema DataFrame para una tabla con 1500 columnas en Spark

Tengo una tabla con alrededor de 1500 columnas en SQL Server. Necesito leer los datos de esta tabla y luego convertirlos al formato de tipo de datos adecuado y luego insertar los registros en Oracle DB. ¿Cuál es la mejor manera de definir el ...

2 la respuesta

Diferencia entre === null y isNull en Spark DataDrame

Estoy un poco confundido con la diferencia cuando estamos usando df.filter(col("c1") === null) and df.filter(col("c1").isNull)El mismo marco de datos que obtengo cuenta en === nulo pero cero cuenta en isNull. Por favor, ayúdame a entender la ...