Resultados de la búsqueda a petición "apache-spark"

He creado una imagen acoplable de mi aplicación cuando simplemente la ejecuto desde el script bash, funciona correctamente. Sin embargo, cuando lo ejecuto como parte del archivo docker-compose, la aplicación se cuelga en el mensaje: 18/06/27 ...

python pyarrow pyspark

1 la respuesta

Aplicar función por grupo en pyspark -pandas_udf (Ningún módulo llamado pyarrow)

Estoy tratando de aplicar una función a cada grupo de un conjunto de datos en pyspark. El primer error que recibí fue Py4JError: An error occurred while calling o62.__getnewargs__. Trace: py4j.Py4JException: Method __getnewargs__([]) does not ...

scala arrays

1 la respuesta

Conversión de matriz de cadenas en Spark a matriz de bytes y recuperación de nuevo utilizando UDFs

Estoy tratando de convertir Array of Strings a byte-array en Spark y volver a convertir el byte-array a Array of Strings. Sin embargo, no estoy recuperando la matriz de cadenas como tengo la intención. Aquí está el código - // UDFs for ...

scala yarn hadoop

0 la respuesta

spark - problema de espacio de almacenamiento dinámico de Java - ExecutorLostFailure - contenedor salido con estado 143

Estoy leyendo la cadena que tiene una longitud de más de 100k bytes y estoy dividiendo las columnas según el ancho. Tengo cerca de 16K columnas que dividí de la cadena anterior en función del ancho. pero mientras escribo en el parquet estoy ...

scala

1 la respuesta

Scala UDF que devuelve 'El esquema para el tipo Unidad no es compatible'

Quiero hacer cambios en una columna en el marco de datos. La columna es una matriz para enteros. Quiero reemplazar elementos de la matriz, tomando el índice de otra matriz y reemplazando ese elemento con un elemento de la tercera ...

scala cassandra datastax

1 la respuesta

¿Hay alguna razón para no usar SparkContext.getOrCreate al escribir un trabajo de chispa?

Estoy escribiendo Spark Jobs que hablan con Cassandra en Datastax. veces, cuando se trabaja a través de una secuencia de pasos en un trabajo de Spark, es más fácil obtener un nuevo RDD en lugar de unirse al anterior. Puedes hacer esto ...

slurm pyspark

1 la respuesta

getExecutorMemoryStatus (). size () no genera el número correcto de ejecutores

En brev, Necesito el número de ejecutores / trabajadores en el clúster Spark, pero usandosc._jsc.sc().getExecutorMemoryStatus().size() me da 1 cuando, de hecho, hay 12 ejecutores. Con más detalles, Estoy tratando de determinar el número de ...

neo4j scala

1 la respuesta

Representar parámetros anidados para la consulta Neo4j en Scala

Intenté ejecutar consultas Neo4j con parámetros en forma de Mapa [String, Anyref] que funciona bien. Sin embargo, me gustaría enviar los datos a Neo4j en forma de lote para que el resultado sea Map [String, Map [String, AnyRef]] o Map [String, ...

pyspark python databricks pandas

1 la respuesta

Especifique cambios en el tipo de datos de varias columnas a diferentes tipos de datos en pyspark

Tengo un DataFrame df) que consta de más de 50 columnas y diferentes tipos de tipos de datos, como df3.printSchema() CtpJobId: string (nullable = true) |-- TransformJobStateId: string (nullable = true) |-- LastError: string (nullable = true) ...

hadoop hdfs

1 la respuesta

Diferencia entre el conjunto de datos de Spark escribir

Estoy usando Spark-Java. Necesito saber si hay alguna diferencia (rendimiento, etc.) entre los siguientes métodos de escritura en Hadoop: ds.write().mode(mode).format("orc").save(path); ds.write().mode(mode).orc(path);Gracias

Página 159 de 165

157 158159160 161

Resultados de la búsqueda a petición "apache-spark"

Spark Streaming con Neo4j se bloquea mientras se ejecuta con Docker

Aplicar función por grupo en pyspark -pandas_udf (Ningún módulo llamado pyarrow)

Conversión de matriz de cadenas en Spark a matriz de bytes y recuperación de nuevo utilizando UDFs

Etiquetas Populares

spark - problema de espacio de almacenamiento dinámico de Java - ExecutorLostFailure - contenedor salido con estado 143

Scala UDF que devuelve 'El esquema para el tipo Unidad no es compatible'

¿Hay alguna razón para no usar SparkContext.getOrCreate al escribir un trabajo de chispa?

getExecutorMemoryStatus (). size () no genera el número correcto de ejecutores

Representar parámetros anidados para la consulta Neo4j en Scala

Especifique cambios en el tipo de datos de varias columnas a diferentes tipos de datos en pyspark

Diferencia entre el conjunto de datos de Spark escribir

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares