Resultados de la búsqueda a petición "pyspark"

2 la respuesta

pyspark aprox Función cuántica

Tengo un marco de datos con estas columnasid, price, timestamp. Me gustaría encontrar el valor medio agrupado porid. Estoy usando este código para encontrarlo, pero me está dando este error. from pyspark.sql import DataFrameStatFunctions as ...

2 la respuesta

Cómo usar variables de cadena en VectorAssembler en Pyspark

Quiero ejecutar el algoritmo Random Forests en Pyspark. Se menciona en el Documentación de Pyspark [http://spark.apache.org/docs/latest/ml-features.html#vectorassembler]que VectorAssembler acepta solo tipos de datos numéricos o booleanos. ...

1 la respuesta

PySpark 2.1: Importar módulo con UDF rompe la conectividad de Hive

Actualmente estoy trabajando con Spark 2.1 y tengo un script principal que llama a un módulo auxiliar que contiene todos mis métodos de transformación. En otras palabras: main.py helper.pyEn la parte superior de mihelper.py archivo Tengo varias ...

1 la respuesta

¿Cómo calcula la IU web la memoria de almacenamiento (en la pestaña Ejecutores)?

Estoy tratando de entender cómo Spark 2.1.0 asigna memoria en los nodos. Supongamos que estoy comenzando un PySpark REPL local que le asigna 2 GB de memoria: $ pyspark --conf spark.driver.memory=2gSpark UI dice que hay956,6 MBasignado para la ...

1 la respuesta

SPARK SQL falla si no hay una ruta de partición especificada disponible

Estoy usando Hive Metastore en EMR. Puedo consultar la tabla manualmente a través de HiveSQL. Pero cuando uso la misma tabla en Spark Job, diceLa ruta de entrada no existe: s3: // Causado por: org.apache.hadoop.mapred.InvalidInputException: la ...

4 la respuesta

Cómo hacer buenos ejemplos reproducibles de Apache Spark

He pasado bastante tiempo leyendo algunas preguntas con elpyspark [/questions/tagged/pyspark]ymarco de datos de chispa [/questions/tagged/spark-dataframe]etiquetas y muy a menudo encuentro que los carteles no proporcionan suficiente información ...

3 la respuesta

¿Cómo agregar múltiples columnas usando UDF?

Pregunta Quiero agregar los valores de retorno de un UDF a un marco de datos existente en columnas separadas. ¿Cómo logro esto de una manera ingeniosa? Aquí hay un ejemplo de lo que tengo hasta ahora. from pyspark.sql.functions import udf from ...

1 la respuesta

pyspark rdd isCheckPointed () es falso

Me encontraba con stackoverflowerrors cuando estaba agregando iterativamente más de 500 columnas a mi marco de datos pyspark. Entonces, incluí puntos de control. Los puntos de control no ayudaron. Entonces, creé la siguiente aplicación de juguete ...

1 la respuesta

¿Por qué no hay una función de mapa para el marco de datos en pyspark mientras que el equivalente de chispa lo tiene?

Actualmente trabajando en PySpark. No hay función de mapa enDataFramey uno tiene que ir aRDD paramap función. En Scala hay unmap enDataFrame, ¿Hay alguna razón para esto?

2 la respuesta

¿Cómo obtener la salida del receptor de transmisión de consola en Zeppelin?

Estoy luchando por conseguir elconsole fregadero trabajando conTransmisión estructurada de PySpark [https://spark.apache.org/docs/2.2.0/structured-streaming-programming-guide.html] cuando se ejecuta desde Zeppelin. Básicamente, no veo ningún ...