Resultados de la búsqueda a petición "pyspark"

4 la respuesta

¿Cómo crear un DataFrame a partir de filas mientras se conserva el esquema existente?

Si llamo mapa omapPartition y mi función recibe filas de PySpark, ¿cuál es la forma natural de crear un PySpark local o un Pandas DataFrame? ¿Algo que combine las filas y conserve el esquema? Actualmente hago algo como: def combine(partition): ...

16 la respuesta

Pyspark: Excepción: el proceso de puerta de enlace Java salió antes de enviar al controlador su número de puerto

Estoy tratando de ejecutar pyspark en mi MacBook Air. Cuando intento iniciarlo, aparece el error: Exception: Java gateway process exited before sending the driver its port number cuando sc = SparkContext () se llama al inicio. He intentado ...

2 la respuesta

PySpark: ¿crear dict de dictos desde el marco de datos?

Tengo datos en el siguiente formato, que se obtiene de Hive en un marco de datos: date, stock, price 1388534400, GOOG, 50 1388534400, FB, 60 1388534400, MSFT, 55 1388620800, GOOG, 52 1388620800, FB, 61 1388620800, MSFT, 55Donde la fecha es ...

2 la respuesta

Pyspark eficiente unirse a

He leído mucho sobre cómo hacer combinaciones eficientes en pyspark. Las formas de lograr uniones eficientes que he encontrado son básicamente: Utilice una unión de transmisión si puede. Normalmente no puedo porque los marcos de datos son ...

2 la respuesta

escalabilidad de chispa: ¿qué estoy haciendo mal?

Estoy procesando datos con chispa y funciona con un día de datos (40G) pero falla conOOMen una semana de datos: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc = pyspark.sql.SQLContext(sc) ...

1 la respuesta

Lectura de múltiples carpetas / rutas S3 en PySpark

Estoy realizando un análisis de big data con PySpark. Puedo importar todos los archivos CSV, almacenados en una carpeta particular de un depósito en particular, usando el siguiente comando: df = ...

4 la respuesta

Cómo hacer buenos ejemplos reproducibles de Apache Spark

He pasado bastante tiempo leyendo algunas preguntas con elpyspark [/questions/tagged/pyspark]ymarco de datos de chispa [/questions/tagged/spark-dataframe]etiquetas y muy a menudo encuentro que los carteles no proporcionan suficiente información ...

2 la respuesta

¿Cómo calcular la diferencia de fecha en pyspark?

Tengo datos como este: df = sqlContext.createDataFrame([ ('1986/10/15', 'z', 'null'), ('1986/10/15', 'z', 'null'), ('1986/10/15', 'c', 'null'), ('1986/10/15', 'null', 'null'), ('1986/10/16', 'null', '4.0')], ('low', 'high', 'normal'))Quiero ...

1 la respuesta

¿Cómo conectar HBase y Spark usando Python?

Tengo una tarea vergonzosamente paralela para la cual uso Spark para distribuir los cálculos. Estos cálculos están en Python, y uso PySpark para leer y preprocesar los datos. Los datos de entrada a mi tarea se almacenan en ...

6 la respuesta

¿Cómo agrego una nueva columna a un Spark DataFrame (usando PySpark)?

Tengo un Spark DataFrame (usando PySpark 1.5.1) y me gustaría agregar una nueva columna. He intentado lo siguiente sin ningún éxito: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, ...