Resultados de la búsqueda a petición "apache-spark-sql"
¿Cuál es el tamaño máximo para un objeto de difusión en Spark?
Cuando use Dataframeemisión [http://spark.apache.org/docs/2.0.0/api/java/org/apache/spark/sql/functions.html#broadcast(org.apache.spark.sql.Dataset)] función o el ...
Error de PySpark: AttributeError: el objeto 'NoneType' no tiene el atributo '_jvm'
Tengo un conjunto de datos de marca de tiempo que está en formato de Y he escrito un udf en pyspark para procesar este conjunto de datos y devolverlo como Mapa de valores clave. Pero me estoy poniendo debajo del mensaje de error. Conjunto de ...
El esquema para el tipo Any no es compatible
Estoy tratando de crear una chispa UDF para extraer un mapa de pares (clave, valor) de una clase de caso definida por el usuario. La función de escala parece funcionar bien, pero cuando trato de convertir eso a un UDF en spark2.0, me encuentro ...
Spark Structured Streaming usando sockets, configure SCHEMA, Display DATAFRAME en la consola
¿Cómo puedo configurar un esquema para una transmisión?DataFrame en PySpark from pyspark.sql import SparkSession from pyspark.sql.functions import explode from pyspark.sql.functions import split # Import data types from pyspark.sql.types import ...
¿La opción ignorar de la función jdbc de Pyspark DataFrameWriter ignora toda la transacción o solo ofende las filas?
El PysparkDataFrameWriter la clase tiene unjdbc función [http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter.jdbc] para escribir un marco de datos en sql. Esta función tiene un--ignore opción que dice la ...
El valor de la configuración "spark.yarn.executor.memoryOverhead"?
El valor despark.yarn.executor.memoryOverhead en un trabajo de Spark con YARN debe asignarse a la aplicación o solo al valor máximo?
PySpark: calcule el máximo de filas del subconjunto de columnas y agregue a un marco de datos existente
Me gustaría calcular el máximo de un subconjunto de columnas para cada fila y agregarlo como una nueva columna para el existenteDataframe. Logré hacer esto de una manera muy incómoda: def add_colmax(df,subset_columns,colnm): ''' calculate the ...
Obtener el número actual de particiones de un DataFrame
¿Hay alguna forma de obtener el número actual de particiones de un DataFrame? Verifiqué el DataFrame javadoc (spark 1.6) y no encontré un método para eso, ¿o simplemente me lo perdí? (En el caso de JavaRDD, hay un método getNumPartitions ()).
Definición del esquema DataFrame para una tabla con 1500 columnas en Spark
Tengo una tabla con alrededor de 1500 columnas en SQL Server. Necesito leer los datos de esta tabla y luego convertirlos al formato de tipo de datos adecuado y luego insertar los registros en Oracle DB. ¿Cuál es la mejor manera de definir el ...
Diferencia entre === null y isNull en Spark DataDrame
Estoy un poco confundido con la diferencia cuando estamos usando df.filter(col("c1") === null) and df.filter(col("c1").isNull)El mismo marco de datos que obtengo cuenta en === nulo pero cero cuenta en isNull. Por favor, ayúdame a entender la ...