Resultados de la búsqueda a petición "pyspark"

Cuando intentaba entrenar un modelo de aprendizaje automático usando ALS en MLLib de Spark, seguía recibiendo un StackoverflowError. Aquí hay una pequeña muestra del seguimiento de la pila: Traceback (most recent call last): File ...

hive apache-spark-sql apache-spark rdd

4 la respuesta

PySpark: mapear un SchemaRDD en un SchemaRDD

Estoy cargando un archivo de objetos JSON como PySparkSchemaRDD. Quiero cambiar la "forma" de los objetos (básicamente, los estoy aplanando) y luego insertarlos en una tabla de Hive. El problema que tengo es que lo siguiente devuelve ...

python unit-testing

3 la respuesta

Prueba de unidad de código pyspark usando python

Tengo script enpyspark como abajo. Quiero probar unfunction en este guion def rename_chars(column_name): chars = ((' ', '_&'), ('.', '_$')) new_cols = reduce(lambda a, kv: a.replace(*kv), chars, column_name) return new_cols def column_names(df): ...

python apache-spark-mllib gradient-descent apache-spark

1 la respuesta

Spark mllib prediciendo un número extraño o NaN

Soy nuevo en Apache Spark e intento usar la biblioteca de aprendizaje automático para predecir algunos datos. Mi conjunto de datos en este momento es solo de unos 350 puntos. Aquí hay 7 de esos puntos: "365","4",41401.387,5330569 ...

regex apache-spark amazon-s3 glob

1 la respuesta

pyspark selecciona un subconjunto de archivos usando regex / glob de s3

Tengo un número de archivos cada uno segregado por fecha(date=yyyymmdd) en amazon s3. Los archivos se remontan a 6 meses, pero me gustaría restringir mi script para que solo use los últimos 3 meses de datos. No estoy seguro de si podré usar ...

iteration loops apache-spark python

3 la respuesta

El tiempo de iteración de chispa aumenta exponencialmente cuando se usa la unión

Soy bastante nuevo en Spark e intento implementar algún algoritmo iterativo para la agrupación (expectativa-maximización) con centroide representado por el modelo de Markov. Entonces necesito hacer iteraciones y uniones. Un problema que ...

spark-dataframe

2 la respuesta

Transformar una columna y actualizar el DataFrame

Entonces, lo que estoy haciendo a continuación es soltar una columnaA a partir de unaDataFrame porque quiero aplicar una transformación (aquí solojson.loads una cadena JSON) y reemplace la columna anterior con la transformada. Después de la ...

apache-spark-1.4

5 la respuesta

¿Cómo iniciar un Spark Shell usando pyspark en Windows?

Soy un principiante en Spark e intento seguir las instrucciones desde aquí sobre cómo inicializar Spark shell desde Python usando ...

apache-spark-sql apache-spark

2 la respuesta

La consulta de Spark funciona muy lentamente

Tengo un clúster en AWS con 2 esclavos y 1 maestro. Todas las instancias son de tipo m1.large. Estoy ejecutando la versión 1.4 de spark. Estoy comparando el rendimiento de la chispa sobre 4 millones de datos provenientes del cambio rojo. Disparé ...

apache-spark python

1 la respuesta

¿Cómo pasar archivos al nodo maestro?

Ya escribí código en Python para implementar la clasificación binaria, y quiero paralelizar este proceso de clasificación basado en diferentes archivos de datos en mi computadora local usando Apache-Spark. Ya he hecho los siguientes pasos: He ...

Página 30 de 46

28 293031 32

Resultados de la búsqueda a petición "pyspark"

Spark da un StackOverflowError cuando se entrena usando ALS

PySpark: mapear un SchemaRDD en un SchemaRDD

Prueba de unidad de código pyspark usando python

Etiquetas Populares

Spark mllib prediciendo un número extraño o NaN

pyspark selecciona un subconjunto de archivos usando regex / glob de s3

El tiempo de iteración de chispa aumenta exponencialmente cuando se usa la unión

Transformar una columna y actualizar el DataFrame

¿Cómo iniciar un Spark Shell usando pyspark en Windows?

La consulta de Spark funciona muy lentamente

¿Cómo pasar archivos al nodo maestro?

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "pyspark"

Etiquetas Populares