Resultados de la búsqueda a petición "pyspark"
pyspark aprox Función cuántica
Tengo un marco de datos con estas columnasid, price, timestamp. Me gustaría encontrar el valor medio agrupado porid. Estoy usando este código para encontrarlo, pero me está dando este error. from pyspark.sql import DataFrameStatFunctions as ...
Cómo usar variables de cadena en VectorAssembler en Pyspark
Quiero ejecutar el algoritmo Random Forests en Pyspark. Se menciona en el Documentación de Pyspark [http://spark.apache.org/docs/latest/ml-features.html#vectorassembler]que VectorAssembler acepta solo tipos de datos numéricos o booleanos. ...
PySpark 2.1: Importar módulo con UDF rompe la conectividad de Hive
Actualmente estoy trabajando con Spark 2.1 y tengo un script principal que llama a un módulo auxiliar que contiene todos mis métodos de transformación. En otras palabras: main.py helper.pyEn la parte superior de mihelper.py archivo Tengo varias ...
¿Cómo calcula la IU web la memoria de almacenamiento (en la pestaña Ejecutores)?
Estoy tratando de entender cómo Spark 2.1.0 asigna memoria en los nodos. Supongamos que estoy comenzando un PySpark REPL local que le asigna 2 GB de memoria: $ pyspark --conf spark.driver.memory=2gSpark UI dice que hay956,6 MBasignado para la ...
SPARK SQL falla si no hay una ruta de partición especificada disponible
Estoy usando Hive Metastore en EMR. Puedo consultar la tabla manualmente a través de HiveSQL. Pero cuando uso la misma tabla en Spark Job, diceLa ruta de entrada no existe: s3: // Causado por: org.apache.hadoop.mapred.InvalidInputException: la ...
Cómo hacer buenos ejemplos reproducibles de Apache Spark
He pasado bastante tiempo leyendo algunas preguntas con elpyspark [/questions/tagged/pyspark]ymarco de datos de chispa [/questions/tagged/spark-dataframe]etiquetas y muy a menudo encuentro que los carteles no proporcionan suficiente información ...
¿Cómo agregar múltiples columnas usando UDF?
Pregunta Quiero agregar los valores de retorno de un UDF a un marco de datos existente en columnas separadas. ¿Cómo logro esto de una manera ingeniosa? Aquí hay un ejemplo de lo que tengo hasta ahora. from pyspark.sql.functions import udf from ...
pyspark rdd isCheckPointed () es falso
Me encontraba con stackoverflowerrors cuando estaba agregando iterativamente más de 500 columnas a mi marco de datos pyspark. Entonces, incluí puntos de control. Los puntos de control no ayudaron. Entonces, creé la siguiente aplicación de juguete ...
¿Por qué no hay una función de mapa para el marco de datos en pyspark mientras que el equivalente de chispa lo tiene?
Actualmente trabajando en PySpark. No hay función de mapa enDataFramey uno tiene que ir aRDD paramap función. En Scala hay unmap enDataFrame, ¿Hay alguna razón para esto?
¿Cómo obtener la salida del receptor de transmisión de consola en Zeppelin?
Estoy luchando por conseguir elconsole fregadero trabajando conTransmisión estructurada de PySpark [https://spark.apache.org/docs/2.2.0/structured-streaming-programming-guide.html] cuando se ejecuta desde Zeppelin. Básicamente, no veo ningún ...