Resultados de la búsqueda a petición "pyspark"
Pyspark: Excepción: el proceso de puerta de enlace Java salió antes de enviar al controlador su número de puerto
Estoy tratando de ejecutar pyspark en mi MacBook Air. Cuando intento iniciarlo, aparece el error: Exception: Java gateway process exited before sending the driver its port number cuando sc = SparkContext () se llama al inicio. He intentado ...
Py4JJavaError en chispa
Tengo el siguiente código a través del cual estoy tratando de hacer expresiones regulares para encontrar y reemplazar en spark usando pyspark. archivokey tiene 182417 filas y archivojob tiene 234085 filas. Estoy ejecutando pyspark en mi máquina ...
Los árboles impulsados por el gradiente de Spark ML no usan todos los nodos
Estoy usando elSpark ML GBTClassifier [https://spark.apache.org/docs/2.2.0/api/python/pyspark.ml.html#pyspark.ml.classification.GBTClassifier] enpyspark para entrenar un modelo de clasificación binaria en un marco de datos con ~ 400k filas y ~ 9k ...
Cómo escribir el RDD resultante en un archivo csv en Spark python
Tengo un RDD resultantelabelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). Esto tiene salida en este formato: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....]Lo que quiero es crear un archivo CSV con una ...
Generación de números aleatorios en PySpark
Comencemos con una función simple que siempre devuelve un entero aleatorio: import numpy as np def f(x): return np.random.randint(1000)y un RDD lleno de ceros y mapeado usandof: rdd = sc.parallelize([0] * 10).map(f)Como el RDD anterior no ...
PySpark, importando esquema a través del archivo JSON
tbschema.json Se ve como esto: [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Lo cargo usando el siguiente código >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...
Problema con la creación de una lista global desde el mapa usando PySpark
Tengo este código donde estoy leyendo un archivo enipython utilizandopyspark. Lo que estoy tratando de hacer es agregarle una pieza que forme una lista basada en una columna particular leída del archivo, pero cuando intento ejecutarlo, la lista ...
Databricks (Spark): ¿las dependencias .egg no se instalan automáticamente?
Tengo un local creado.egg paquete que depende deboto==2.38.0. Utilicé setuptools para crear la distribución de compilación. Todo funciona en mi propio entorno local, ya que obtieneboto correctamente dePiP. Sin embargo endatabricks no recupera ...
Conéctese a los datos S3 de PySpark
Estoy tratando de leer un archivo JSON, de Amazon s3, para crear un contexto de chispa y usarlo para procesar los datos. Spark está básicamente en un contenedor acoplable. Por lo tanto, poner archivos en la ruta del acoplador también es PITA. ...
¿Cómo mejorar el rendimiento para trabajos lentos de Spark utilizando DataFrame y conexión JDBC?
Estoy tratando de acceder a una tabla de Teradata de tamaño medio (~ 100 millones de filas) a través de JDBC en modo independiente en un solo nodo (local [*]). Estoy usando Spark 1.4.1. y está configurado en una máquina muy potente (2 cpu, 24 ...