Resultados de la búsqueda a petición "apache-spark"
Spark Streaming con Neo4j se bloquea mientras se ejecuta con Docker
He creado una imagen acoplable de mi aplicación cuando simplemente la ejecuto desde el script bash, funciona correctamente. Sin embargo, cuando lo ejecuto como parte del archivo docker-compose, la aplicación se cuelga en el mensaje: 18/06/27 ...
Aplicar función por grupo en pyspark -pandas_udf (Ningún módulo llamado pyarrow)
Estoy tratando de aplicar una función a cada grupo de un conjunto de datos en pyspark. El primer error que recibí fue Py4JError: An error occurred while calling o62.__getnewargs__. Trace: py4j.Py4JException: Method __getnewargs__([]) does not ...
Conversión de matriz de cadenas en Spark a matriz de bytes y recuperación de nuevo utilizando UDFs
Estoy tratando de convertir Array of Strings a byte-array en Spark y volver a convertir el byte-array a Array of Strings. Sin embargo, no estoy recuperando la matriz de cadenas como tengo la intención. Aquí está el código - // UDFs for ...
spark - problema de espacio de almacenamiento dinámico de Java - ExecutorLostFailure - contenedor salido con estado 143
Estoy leyendo la cadena que tiene una longitud de más de 100k bytes y estoy dividiendo las columnas según el ancho. Tengo cerca de 16K columnas que dividí de la cadena anterior en función del ancho. pero mientras escribo en el parquet estoy ...
Scala UDF que devuelve 'El esquema para el tipo Unidad no es compatible'
Quiero hacer cambios en una columna en el marco de datos. La columna es una matriz para enteros. Quiero reemplazar elementos de la matriz, tomando el índice de otra matriz y reemplazando ese elemento con un elemento de la tercera ...
¿Hay alguna razón para no usar SparkContext.getOrCreate al escribir un trabajo de chispa?
Estoy escribiendo Spark Jobs que hablan con Cassandra en Datastax. veces, cuando se trabaja a través de una secuencia de pasos en un trabajo de Spark, es más fácil obtener un nuevo RDD en lugar de unirse al anterior. Puedes hacer esto ...
getExecutorMemoryStatus (). size () no genera el número correcto de ejecutores
En brev, Necesito el número de ejecutores / trabajadores en el clúster Spark, pero usandosc._jsc.sc().getExecutorMemoryStatus().size() me da 1 cuando, de hecho, hay 12 ejecutores. Con más detalles, Estoy tratando de determinar el número de ...
Representar parámetros anidados para la consulta Neo4j en Scala
Intenté ejecutar consultas Neo4j con parámetros en forma de Mapa [String, Anyref] que funciona bien. Sin embargo, me gustaría enviar los datos a Neo4j en forma de lote para que el resultado sea Map [String, Map [String, AnyRef]] o Map [String, ...
Especifique cambios en el tipo de datos de varias columnas a diferentes tipos de datos en pyspark
Tengo un DataFrame df) que consta de más de 50 columnas y diferentes tipos de tipos de datos, como df3.printSchema() CtpJobId: string (nullable = true) |-- TransformJobStateId: string (nullable = true) |-- LastError: string (nullable = true) ...
Diferencia entre el conjunto de datos de Spark escribir
Estoy usando Spark-Java. Necesito saber si hay alguna diferencia (rendimiento, etc.) entre los siguientes métodos de escritura en Hadoop: ds.write().mode(mode).format("orc").save(path); ds.write().mode(mode).orc(path);Gracias