Resultados de la búsqueda a petición "pyspark"
Desbordamiento de pila al procesar varias columnas con un UDF
tengo unDataFrame con muchas columnas destr tipo, y quiero aplicar una función a todas esas columnas, sin renombrar sus nombres o agregar más columnas, intenté usar unfor-in ejecución de buclewithColumn (ver ejemplo más abajo), pero normalmente ...
pyspark y reduceByKey: cómo hacer una suma simple
Estoy intentando un código en Spark (pyspark) para una tarea. La primera vez que uso este entorno, seguro que extraño algo ... Tengo un conjunto de datos simple llamado c_views. Si corroc_views.collect() yo obtengo […] (u'ABC', 100), (u'DEF', ...
La interfaz de usuario de Spark muestra 0 núcleos incluso cuando se configuran núcleos en la aplicación
Tengo un problema extraño al ejecutar una aplicación fuera de la url maestra de chispas donde la interfaz de usuario informa un "ESTADO" de "ESPERA" indefinidamente ya que se muestran 0 núcleos en la tabla APLICACIONES EN EJECUCIÓN sin importar ...
función de ventana first_value en pyspark
Estoy usando pyspark 1.5 obteniendo mis datos de las tablas de Hive e intentando usar las funciones de ventanas. De acuerdo aesta [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] existe una función ...
spark.ml StringIndexer arroja 'Etiqueta invisible' en fit ()
Estoy preparando un juguetespark.ml ejemplo.Spark version 1.6.0, corriendo encima deOracle JDK version 1.8.0_65, pyspark, cuaderno de ipython. Primero, casi no tiene nada que ver conSpark, ML, StringIndexer: manejo de etiquetas ...
Cómo convertir datos de Spark Streaming en Spark DataFrame
Hasta ahora, Spark no ha creado el DataFrame para la transmisión de datos, pero cuando estoy haciendo la detección de anomalías, es más conveniente y rápido usar DataFrame para el análisis de datos. He hecho esta parte, pero cuando trato de hacer ...
Encuentre la fila máxima por grupo en Spark DataFrame
Estoy tratando de usar marcos de datos Spark en lugar de RDD, ya que parecen ser de más alto nivel que los RDD y tienden a producir un código más legible. En un clúster de 14 nodos de Google Dataproc, tengo alrededor de 6 millones de nombres que ...
Apache Spark: asigna el resultado de UDF a varias columnas de trama de datos
Estoy usando pyspark, cargando un archivo csv grande en un marco de datos con spark-csv, y como paso de preprocesamiento necesito aplicar una variedad de operaciones a los datos disponibles en una de las columnas (que contiene una cadena json) . ...
cargar bibliotecas externas dentro del código pyspark
Tengo un grupo de chispas que uso en modo local. Quiero leer un csv con la biblioteca externa de databricks spark.csv. Inicio mi aplicación de la siguiente manera: import os import sys os.environ["SPARK_HOME"] ...
¿Cómo pasar un valor constante a Python UDF?
Estaba pensando si era posible crear unUDF que recibe dos argumentos unColumn y otra variable (Object,Dictionary, o cualquier otro tipo), luego realice algunas operaciones y devuelva el resultado. En realidad, intenté hacer esto pero obtuve una ...