Resultados de la búsqueda a petición "pyspark"
Spark Scala: error de tarea no serializable
Estoy usando IntelliJ Community Edition con Scala Plugin y bibliotecas de chispa. Todavía estoy aprendiendo Spark y estoy usando Scala Worksheet. He escrito el siguiente código que elimina los signos de puntuación en una cadena: def ...
El almacenamiento en caché ordenado de Spark DataFrame crea trabajo no deseado
Quiero convertir un RDD en un DataFrame y quiero almacenar en caché los resultados del RDD: from pyspark.sql import * from pyspark.sql.types import * import pyspark.sql.functions as fn schema = StructType([StructField('t', ...
Calcular la similitud de coseno entre todas las filas de un marco de datos en pyspark
Tengo un conjunto de datos que contiene trabajadores con su información demográfica, como edad, sexo, dirección, etc. y sus ubicaciones de trabajo. Creé un RDD a partir del conjunto de datos y lo convertí en un DataFrame. Hay múltiples entradas ...
Cómo empujar un marco de datos Spark a Elastic Search (Pyspark)
Principiante ES Pregunta aquí ¿Cuál es el flujo de trabajo o los pasos para llevar un Spark Dataframe a Elastic Search? De la investigación, creo que necesito usar elspark.newAPIHadoopFile ...
¿Cómo escribir un objeto de conjunto de datos para sobresalir en spark java?
Estoy leyendo un archivo de Excel usandocom.crealytics.spark.excelpaquete. A continuación se muestra el código para leer un archivo de Excel en spark java. Dataset<Row> SourcePropertSet = sqlContext.read() .format("com.crealytics.spark.excel") ...
¿Cómo puede analizar una cadena que es json de una tabla temporal existente usando PySpark?
Tengo un marco de datos Spark existente que tiene columnas como tales: -------------------- pid | response -------------------- 12 | {"status":"200"}La respuesta es una columna de cadena. ¿Hay alguna manera de convertirlo en JSON y extraer ...
Pyspark: Pase múltiples columnas en UDF
Estoy escribiendo una función definida por el usuario que tomará todas las columnas excepto la primera en un marco de datos y sumará (o cualquier otra operación). Ahora el marco de datos a veces puede tener 3 columnas o 4 columnas o más. ...
PySpark reemplaza nulo en columna con valor en otra columna
Quiero reemplazar los valores nulos en una columna con los valores en una columna adyacente, por ejemplo, si tengo A|B 0,1 2,null 3,null 4,2Quiero que sea: A|B 0,1 2,2 3,3 4,2Probado con df.na.fill(df.A,"B")Pero no funcionó, dice que el valor ...
PySpark: inconsistencia en la conversión de marca de tiempo a entero en el marco de datos
Tengo un marco de datos con una estructura aproximada como la siguiente: +-------------------------+-------------------------+--------+ | timestamp | adj_timestamp | values | +-------------------------+-------------------------+--------+ | ...
Spark ML Pipeline con RandomForest lleva demasiado tiempo en un conjunto de datos de 20 MB
Estoy usando Spark ML para ejecutar algunos experimentos de ML y en un pequeño conjunto de datos de 20 MB (Conjunto de datos de póker [http://archive.ics.uci.edu/ml/machine-learning-databases/poker/poker-hand-testing.data] ) y un bosque aleatorio ...