Resultados de la búsqueda a petición "pyspark"
Spark da un StackOverflowError cuando se entrena usando ALS
Cuando intentaba entrenar un modelo de aprendizaje automático usando ALS en MLLib de Spark, seguía recibiendo un StackoverflowError. Aquí hay una pequeña muestra del seguimiento de la pila: Traceback (most recent call last): File ...
PySpark: mapear un SchemaRDD en un SchemaRDD
Estoy cargando un archivo de objetos JSON como PySparkSchemaRDD. Quiero cambiar la "forma" de los objetos (básicamente, los estoy aplanando) y luego insertarlos en una tabla de Hive. El problema que tengo es que lo siguiente devuelve ...
Prueba de unidad de código pyspark usando python
Tengo script enpyspark como abajo. Quiero probar unfunction en este guion def rename_chars(column_name): chars = ((' ', '_&'), ('.', '_$')) new_cols = reduce(lambda a, kv: a.replace(*kv), chars, column_name) return new_cols def column_names(df): ...
Spark mllib prediciendo un número extraño o NaN
Soy nuevo en Apache Spark e intento usar la biblioteca de aprendizaje automático para predecir algunos datos. Mi conjunto de datos en este momento es solo de unos 350 puntos. Aquí hay 7 de esos puntos: "365","4",41401.387,5330569 ...
pyspark selecciona un subconjunto de archivos usando regex / glob de s3
Tengo un número de archivos cada uno segregado por fecha(date=yyyymmdd) en amazon s3. Los archivos se remontan a 6 meses, pero me gustaría restringir mi script para que solo use los últimos 3 meses de datos. No estoy seguro de si podré usar ...
El tiempo de iteración de chispa aumenta exponencialmente cuando se usa la unión
Soy bastante nuevo en Spark e intento implementar algún algoritmo iterativo para la agrupación (expectativa-maximización) con centroide representado por el modelo de Markov. Entonces necesito hacer iteraciones y uniones. Un problema que ...
Transformar una columna y actualizar el DataFrame
Entonces, lo que estoy haciendo a continuación es soltar una columnaA a partir de unaDataFrame porque quiero aplicar una transformación (aquí solojson.loads una cadena JSON) y reemplace la columna anterior con la transformada. Después de la ...
¿Cómo iniciar un Spark Shell usando pyspark en Windows?
Soy un principiante en Spark e intento seguir las instrucciones desde aquí sobre cómo inicializar Spark shell desde Python usando ...
La consulta de Spark funciona muy lentamente
Tengo un clúster en AWS con 2 esclavos y 1 maestro. Todas las instancias son de tipo m1.large. Estoy ejecutando la versión 1.4 de spark. Estoy comparando el rendimiento de la chispa sobre 4 millones de datos provenientes del cambio rojo. Disparé ...
¿Cómo pasar archivos al nodo maestro?
Ya escribí código en Python para implementar la clasificación binaria, y quiero paralelizar este proceso de clasificación basado en diferentes archivos de datos en mi computadora local usando Apache-Spark. Ya he hecho los siguientes pasos: He ...