Resultados de la búsqueda a petición "pyspark"

3 la respuesta

Spark Scala: error de tarea no serializable

Estoy usando IntelliJ Community Edition con Scala Plugin y bibliotecas de chispa. Todavía estoy aprendiendo Spark y estoy usando Scala Worksheet. He escrito el siguiente código que elimina los signos de puntuación en una cadena: def ...

1 la respuesta

El almacenamiento en caché ordenado de Spark DataFrame crea trabajo no deseado

Quiero convertir un RDD en un DataFrame y quiero almacenar en caché los resultados del RDD: from pyspark.sql import * from pyspark.sql.types import * import pyspark.sql.functions as fn schema = StructType([StructField('t', ...

1 la respuesta

Calcular la similitud de coseno entre todas las filas de un marco de datos en pyspark

Tengo un conjunto de datos que contiene trabajadores con su información demográfica, como edad, sexo, dirección, etc. y sus ubicaciones de trabajo. Creé un RDD a partir del conjunto de datos y lo convertí en un DataFrame. Hay múltiples entradas ...

2 la respuesta

Cómo empujar un marco de datos Spark a Elastic Search (Pyspark)

Principiante ES Pregunta aquí ¿Cuál es el flujo de trabajo o los pasos para llevar un Spark Dataframe a Elastic Search? De la investigación, creo que necesito usar elspark.newAPIHadoopFile ...

2 la respuesta

¿Cómo escribir un objeto de conjunto de datos para sobresalir en spark java?

Estoy leyendo un archivo de Excel usandocom.crealytics.spark.excelpaquete. A continuación se muestra el código para leer un archivo de Excel en spark java. Dataset<Row> SourcePropertSet = sqlContext.read() .format("com.crealytics.spark.excel") ...

1 la respuesta

¿Cómo puede analizar una cadena que es json de una tabla temporal existente usando PySpark?

Tengo un marco de datos Spark existente que tiene columnas como tales: -------------------- pid | response -------------------- 12 | {"status":"200"}La respuesta es una columna de cadena. ¿Hay alguna manera de convertirlo en JSON y extraer ...

3 la respuesta

Pyspark: Pase múltiples columnas en UDF

Estoy escribiendo una función definida por el usuario que tomará todas las columnas excepto la primera en un marco de datos y sumará (o cualquier otra operación). Ahora el marco de datos a veces puede tener 3 columnas o 4 columnas o más. ...

3 la respuesta

PySpark reemplaza nulo en columna con valor en otra columna

Quiero reemplazar los valores nulos en una columna con los valores en una columna adyacente, por ejemplo, si tengo A|B 0,1 2,null 3,null 4,2Quiero que sea: A|B 0,1 2,2 3,3 4,2Probado con df.na.fill(df.A,"B")Pero no funcionó, dice que el valor ...

1 la respuesta

PySpark: inconsistencia en la conversión de marca de tiempo a entero en el marco de datos

Tengo un marco de datos con una estructura aproximada como la siguiente: +-------------------------+-------------------------+--------+ | timestamp | adj_timestamp | values | +-------------------------+-------------------------+--------+ | ...

1 la respuesta

Spark ML Pipeline con RandomForest lleva demasiado tiempo en un conjunto de datos de 20 MB

Estoy usando Spark ML para ejecutar algunos experimentos de ML y en un pequeño conjunto de datos de 20 MB (Conjunto de datos de póker [http://archive.ics.uci.edu/ml/machine-learning-databases/poker/poker-hand-testing.data] ) y un bosque aleatorio ...