Resultados de la búsqueda a petición "pyspark"

Estoy obteniendo datos de HDFS y almacenándolos en un Spark RDD. Spark crea el número de particiones en función del número de bloques HDFS. Esto conduce a una gran cantidad de particiones vacías que también se procesan durante la tubería. Para ...

pydev eclipse apache-spark python-2.7

1 la respuesta

PySpark en Eclipse: usando PyDev

Estoy ejecutando un código pyspark local desde la línea de comandos y funciona: /Users/edamame/local-lib/apache-spark/spark-1.5.1/bin/pyspark --jars myJar.jar --driver-class-path myJar.jar --executor-memory 2G --driver-memory 4G --executor-cores ...

apache-spark-ml apache-spark apache-spark-sql pca

1 la respuesta

Pyspark y PCA: ¿Cómo puedo extraer los vectores propios de esta PCA? ¿Cómo puedo calcular cuánta varianza están explicando?

Estoy reduciendo la dimensionalidad de unSpark DataFrame conPCA modelo con pyspark (utilizando elspark ml biblioteca) de la siguiente manera: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)dóndedata es unSpark ...

scala sbt aws-glue

3 la respuesta

¿Cómo configurar un entorno de desarrollo local para que Scala Spark ETL se ejecute en AWS Glue?

Me gustaría poder escribirScala en mi IDE local y luego implementarlo en AWS Glue como parte de un proceso de compilación. Pero tengo problemas para encontrar las bibliotecas necesarias para construir elGlueApp esqueleto generado por ...

apache-spark python apache-spark-sql apache-spark-ml

2 la respuesta

Apache Spark lanza NullPointerException cuando encuentra una característica faltante

Tengo un problema extraño con PySpark al indexar columnas de cadenas en funciones. Aquí está mi archivo tmp.csv: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1donde me falta un valor ...

apache-spark python dataframe apache-spark-sql

6 la respuesta

¿Cómo agrego una nueva columna a un Spark DataFrame (usando PySpark)?

Tengo un Spark DataFrame (usando PySpark 1.5.1) y me gustaría agregar una nueva columna. He intentado lo siguiente sin ningún éxito: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, ...

apache-spark python rdd

2 la respuesta

Spark union de múltiples RDD

En mi código de cerdo hago esto: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Quiero hacer lo mismo con chispa. Sin embargo, desafortunadamente, veo que tengo que seguir haciéndolo por pares: first = ...

apache-spark-sql sql apache-spark python

1 la respuesta

Filtrado de Sparksql (selección con cláusula where) con múltiples condiciones

Hola, tengo el siguiente problema: numeric.registerTempTable("numeric").Todos los valores que quiero filtrar son cadenas nulas literales y no N / A o valores nulos. Probé estas tres opciones: numeric_filtered = numeric.filter(numeric['LOW'] ...

python anaconda apache-spark

5 la respuesta

Como importar pyspark en anaconda

Estoy intentando importar y usarpyspark con anaconda Después de instalar la chispa y configurar el$SPARK_HOME variable que probé: $ pip install pysparkEsto no funcionará (por supuesto) porque descubrí que necesito tel python para buscarpyspark ...

apache-spark unit-testing python

5 la respuesta

¿Cómo pruebo unitariamente los programas PySpark?

Mi enfoque actual de Java / Spark Unit Test funciona (detalladoaquí [https://stackoverflow.com/a/32213314/2596363]) creando instancias de un SparkContext usando "local" y ejecutando pruebas unitarias usando JUnit. El código tiene que estar ...

Página 35 de 46

33 343536 37

Resultados de la búsqueda a petición "pyspark"

Eliminar particiones vacías de Spark RDD

PySpark en Eclipse: usando PyDev

Pyspark y PCA: ¿Cómo puedo extraer los vectores propios de esta PCA? ¿Cómo puedo calcular cuánta varianza están explicando?

Etiquetas Populares

¿Cómo configurar un entorno de desarrollo local para que Scala Spark ETL se ejecute en AWS Glue?

Apache Spark lanza NullPointerException cuando encuentra una característica faltante

¿Cómo agrego una nueva columna a un Spark DataFrame (usando PySpark)?

Spark union de múltiples RDD

Filtrado de Sparksql (selección con cláusula where) con múltiples condiciones

Como importar pyspark en anaconda

¿Cómo pruebo unitariamente los programas PySpark?

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "pyspark"

Etiquetas Populares