Resultados de la búsqueda a petición "pyspark"

1 la respuesta

Spark da un StackOverflowError cuando se entrena usando ALS

Cuando intentaba entrenar un modelo de aprendizaje automático usando ALS en MLLib de Spark, seguía recibiendo un StackoverflowError. Aquí hay una pequeña muestra del seguimiento de la pila: Traceback (most recent call last): File ...

4 la respuesta

PySpark: mapear un SchemaRDD en un SchemaRDD

Estoy cargando un archivo de objetos JSON como PySparkSchemaRDD. Quiero cambiar la "forma" de los objetos (básicamente, los estoy aplanando) y luego insertarlos en una tabla de Hive. El problema que tengo es que lo siguiente devuelve ...

3 la respuesta

Prueba de unidad de código pyspark usando python

Tengo script enpyspark como abajo. Quiero probar unfunction en este guion def rename_chars(column_name): chars = ((' ', '_&'), ('.', '_$')) new_cols = reduce(lambda a, kv: a.replace(*kv), chars, column_name) return new_cols def column_names(df): ...

1 la respuesta

Spark mllib prediciendo un número extraño o NaN

Soy nuevo en Apache Spark e intento usar la biblioteca de aprendizaje automático para predecir algunos datos. Mi conjunto de datos en este momento es solo de unos 350 puntos. Aquí hay 7 de esos puntos: "365","4",41401.387,5330569 ...

1 la respuesta

pyspark selecciona un subconjunto de archivos usando regex / glob de s3

Tengo un número de archivos cada uno segregado por fecha(date=yyyymmdd) en amazon s3. Los archivos se remontan a 6 meses, pero me gustaría restringir mi script para que solo use los últimos 3 meses de datos. No estoy seguro de si podré usar ...

3 la respuesta

El tiempo de iteración de chispa aumenta exponencialmente cuando se usa la unión

Soy bastante nuevo en Spark e intento implementar algún algoritmo iterativo para la agrupación (expectativa-maximización) con centroide representado por el modelo de Markov. Entonces necesito hacer iteraciones y uniones. Un problema que ...

2 la respuesta

Transformar una columna y actualizar el DataFrame

Entonces, lo que estoy haciendo a continuación es soltar una columnaA a partir de unaDataFrame porque quiero aplicar una transformación (aquí solojson.loads una cadena JSON) y reemplace la columna anterior con la transformada. Después de la ...

5 la respuesta

¿Cómo iniciar un Spark Shell usando pyspark en Windows?

Soy un principiante en Spark e intento seguir las instrucciones desde aquí sobre cómo inicializar Spark shell desde Python usando ...

2 la respuesta

La consulta de Spark funciona muy lentamente

Tengo un clúster en AWS con 2 esclavos y 1 maestro. Todas las instancias son de tipo m1.large. Estoy ejecutando la versión 1.4 de spark. Estoy comparando el rendimiento de la chispa sobre 4 millones de datos provenientes del cambio rojo. Disparé ...

1 la respuesta

¿Cómo pasar archivos al nodo maestro?

Ya escribí código en Python para implementar la clasificación binaria, y quiero paralelizar este proceso de clasificación basado en diferentes archivos de datos en mi computadora local usando Apache-Spark. Ya he hecho los siguientes pasos: He ...