Resultados de la búsqueda a petición "pyspark"

1 la respuesta

Eliminar particiones vacías de Spark RDD

Estoy obteniendo datos de HDFS y almacenándolos en un Spark RDD. Spark crea el número de particiones en función del número de bloques HDFS. Esto conduce a una gran cantidad de particiones vacías que también se procesan durante la tubería. Para ...

1 la respuesta

PySpark en Eclipse: usando PyDev

Estoy ejecutando un código pyspark local desde la línea de comandos y funciona: /Users/edamame/local-lib/apache-spark/spark-1.5.1/bin/pyspark --jars myJar.jar --driver-class-path myJar.jar --executor-memory 2G --driver-memory 4G --executor-cores ...

1 la respuesta

Pyspark y PCA: ¿Cómo puedo extraer los vectores propios de esta PCA? ¿Cómo puedo calcular cuánta varianza están explicando?

Estoy reduciendo la dimensionalidad de unSpark DataFrame conPCA modelo con pyspark (utilizando elspark ml biblioteca) de la siguiente manera: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)dóndedata es unSpark ...

3 la respuesta

¿Cómo configurar un entorno de desarrollo local para que Scala Spark ETL se ejecute en AWS Glue?

Me gustaría poder escribirScala en mi IDE local y luego implementarlo en AWS Glue como parte de un proceso de compilación. Pero tengo problemas para encontrar las bibliotecas necesarias para construir elGlueApp esqueleto generado por ...

2 la respuesta

Apache Spark lanza NullPointerException cuando encuentra una característica faltante

Tengo un problema extraño con PySpark al indexar columnas de cadenas en funciones. Aquí está mi archivo tmp.csv: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1donde me falta un valor ...

6 la respuesta

¿Cómo agrego una nueva columna a un Spark DataFrame (usando PySpark)?

Tengo un Spark DataFrame (usando PySpark 1.5.1) y me gustaría agregar una nueva columna. He intentado lo siguiente sin ningún éxito: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, ...

2 la respuesta

Spark union de múltiples RDD

En mi código de cerdo hago esto: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Quiero hacer lo mismo con chispa. Sin embargo, desafortunadamente, veo que tengo que seguir haciéndolo por pares: first = ...

1 la respuesta

Filtrado de Sparksql (selección con cláusula where) con múltiples condiciones

Hola, tengo el siguiente problema: numeric.registerTempTable("numeric").Todos los valores que quiero filtrar son cadenas nulas literales y no N / A o valores nulos. Probé estas tres opciones: numeric_filtered = numeric.filter(numeric['LOW'] ...

5 la respuesta

Como importar pyspark en anaconda

Estoy intentando importar y usarpyspark con anaconda Después de instalar la chispa y configurar el$SPARK_HOME variable que probé: $ pip install pysparkEsto no funcionará (por supuesto) porque descubrí que necesito tel python para buscarpyspark ...

5 la respuesta

¿Cómo pruebo unitariamente los programas PySpark?

Mi enfoque actual de Java / Spark Unit Test funciona (detalladoaquí [https://stackoverflow.com/a/32213314/2596363]) creando instancias de un SparkContext usando "local" y ejecutando pruebas unitarias usando JUnit. El código tiene que estar ...