Resultados de la búsqueda a petición "pyspark"

16 la respuesta

Pyspark: Excepción: el proceso de puerta de enlace Java salió antes de enviar al controlador su número de puerto

Estoy tratando de ejecutar pyspark en mi MacBook Air. Cuando intento iniciarlo, aparece el error: Exception: Java gateway process exited before sending the driver its port number cuando sc = SparkContext () se llama al inicio. He intentado ...

0 la respuesta

Py4JJavaError en chispa

Tengo el siguiente código a través del cual estoy tratando de hacer expresiones regulares para encontrar y reemplazar en spark usando pyspark. archivokey tiene 182417 filas y archivojob tiene 234085 filas. Estoy ejecutando pyspark en mi máquina ...

1 la respuesta

Los árboles impulsados por el gradiente de Spark ML no usan todos los nodos

Estoy usando elSpark ML GBTClassifier [https://spark.apache.org/docs/2.2.0/api/python/pyspark.ml.html#pyspark.ml.classification.GBTClassifier] enpyspark para entrenar un modelo de clasificación binaria en un marco de datos con ~ 400k filas y ~ 9k ...

3 la respuesta

Cómo escribir el RDD resultante en un archivo csv en Spark python

Tengo un RDD resultantelabelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). Esto tiene salida en este formato: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....]Lo que quiero es crear un archivo CSV con una ...

2 la respuesta

Generación de números aleatorios en PySpark

Comencemos con una función simple que siempre devuelve un entero aleatorio: import numpy as np def f(x): return np.random.randint(1000)y un RDD lleno de ceros y mapeado usandof: rdd = sc.parallelize([0] * 10).map(f)Como el RDD anterior no ...

1 la respuesta

PySpark, importando esquema a través del archivo JSON

tbschema.json Se ve como esto: [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Lo cargo usando el siguiente código >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...

1 la respuesta

Problema con la creación de una lista global desde el mapa usando PySpark

Tengo este código donde estoy leyendo un archivo enipython utilizandopyspark. Lo que estoy tratando de hacer es agregarle una pieza que forme una lista basada en una columna particular leída del archivo, pero cuando intento ejecutarlo, la lista ...

1 la respuesta

Databricks (Spark): ¿las dependencias .egg no se instalan automáticamente?

Tengo un local creado.egg paquete que depende deboto==2.38.0. Utilicé setuptools para crear la distribución de compilación. Todo funciona en mi propio entorno local, ya que obtieneboto correctamente dePiP. Sin embargo endatabricks no recupera ...

2 la respuesta

Conéctese a los datos S3 de PySpark

Estoy tratando de leer un archivo JSON, de Amazon s3, para crear un contexto de chispa y usarlo para procesar los datos. Spark está básicamente en un contenedor acoplable. Por lo tanto, poner archivos en la ruta del acoplador también es PITA. ...

2 la respuesta

¿Cómo mejorar el rendimiento para trabajos lentos de Spark utilizando DataFrame y conexión JDBC?

Estoy tratando de acceder a una tabla de Teradata de tamaño medio (~ 100 millones de filas) a través de JDBC en modo independiente en un solo nodo (local [*]). Estoy usando Spark 1.4.1. y está configurado en una máquina muy potente (2 cpu, 24 ...