Resultados de la búsqueda a petición "pyspark"
Eliminar particiones vacías de Spark RDD
Estoy obteniendo datos de HDFS y almacenándolos en un Spark RDD. Spark crea el número de particiones en función del número de bloques HDFS. Esto conduce a una gran cantidad de particiones vacías que también se procesan durante la tubería. Para ...
PySpark en Eclipse: usando PyDev
Estoy ejecutando un código pyspark local desde la línea de comandos y funciona: /Users/edamame/local-lib/apache-spark/spark-1.5.1/bin/pyspark --jars myJar.jar --driver-class-path myJar.jar --executor-memory 2G --driver-memory 4G --executor-cores ...
Pyspark y PCA: ¿Cómo puedo extraer los vectores propios de esta PCA? ¿Cómo puedo calcular cuánta varianza están explicando?
Estoy reduciendo la dimensionalidad de unSpark DataFrame conPCA modelo con pyspark (utilizando elspark ml biblioteca) de la siguiente manera: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)dóndedata es unSpark ...
¿Cómo configurar un entorno de desarrollo local para que Scala Spark ETL se ejecute en AWS Glue?
Me gustaría poder escribirScala en mi IDE local y luego implementarlo en AWS Glue como parte de un proceso de compilación. Pero tengo problemas para encontrar las bibliotecas necesarias para construir elGlueApp esqueleto generado por ...
Apache Spark lanza NullPointerException cuando encuentra una característica faltante
Tengo un problema extraño con PySpark al indexar columnas de cadenas en funciones. Aquí está mi archivo tmp.csv: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1donde me falta un valor ...
¿Cómo agrego una nueva columna a un Spark DataFrame (usando PySpark)?
Tengo un Spark DataFrame (usando PySpark 1.5.1) y me gustaría agregar una nueva columna. He intentado lo siguiente sin ningún éxito: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, ...
Spark union de múltiples RDD
En mi código de cerdo hago esto: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Quiero hacer lo mismo con chispa. Sin embargo, desafortunadamente, veo que tengo que seguir haciéndolo por pares: first = ...
Filtrado de Sparksql (selección con cláusula where) con múltiples condiciones
Hola, tengo el siguiente problema: numeric.registerTempTable("numeric").Todos los valores que quiero filtrar son cadenas nulas literales y no N / A o valores nulos. Probé estas tres opciones: numeric_filtered = numeric.filter(numeric['LOW'] ...
Como importar pyspark en anaconda
Estoy intentando importar y usarpyspark con anaconda Después de instalar la chispa y configurar el$SPARK_HOME variable que probé: $ pip install pysparkEsto no funcionará (por supuesto) porque descubrí que necesito tel python para buscarpyspark ...
¿Cómo pruebo unitariamente los programas PySpark?
Mi enfoque actual de Java / Spark Unit Test funciona (detalladoaquí [https://stackoverflow.com/a/32213314/2596363]) creando instancias de un SparkContext usando "local" y ejecutando pruebas unitarias usando JUnit. El código tiene que estar ...