Resultados de la búsqueda a petición "apache-spark"
Spark data type adivinador UDAF
Quería tomar algo como esto https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java]y cree un HDAF Hive para crear una función agregada que ...
PySpark DataFrames: ¿forma de enumerar sin convertir a Pandas?
Tengo un muy grandepyspark.sql.dataframe.DataFramellamado df. Necesito alguna forma de enumerar registros, por lo tanto, poder acceder al registro con cierto índice. (o seleccione un grupo de registros con rango de índices) En pandas, podría ...
¿Cómo se pueden enumerar todos los archivos csv en una ubicación HDFS dentro del shell Spark Scala?
El propósito de esto es manipular y guardar una copia de cada archivo de datos en una segunda ubicación en HDFS. Estaré usando RddName.coalesce(1).saveAsTextFile(pathName)para guardar el resultado en HDFS. Es por eso que quiero hacer cada ...
Convierta un RDD a iterable: PySpark?
Tengo un RDD que estoy creando cargando un archivo de texto y preprocesándolo. No quiero recopilarlo y guardarlo en el disco o la memoria (datos completos), sino que quiero pasarlo a alguna otra función en Python que consuma los datos uno tras ...
Organización de código chispa y mejores prácticas [cerrado]
Entonces, después de haber pasado muchos años en un mundo orientado a objetos con la reutilización del código, los patrones de diseño y las mejores prácticas siempre tomados en cuenta, me encuentro luchando un poco con la organización del código ...
¿Cómo usar las funciones de ventana en PySpark usando DataFrames?
Intentando descubrir cómo usar las funciones de ventana en PySpark. Aquí hay un ejemplo de lo que me gustaría poder hacer, simplemente cuente la cantidad de veces que un usuario tiene un "evento" (en este caso, "dt" es una marca de tiempo ...
¿Cómo agregar una columna constante en un Spark DataFrame?
Quiero agregar una columna en unDataFrame con algún valor arbitrario (que es lo mismo para cada fila). Me sale un error cuando usowithColumn como sigue: dt.withColumn('new_column', ...
El objeto 'PipelinedRDD' no tiene el atributo 'toDF' en PySpark
Estoy tratando de cargar un archivo SVM y convertirlo en unDataFrame entonces puedo usar el módulo ML (Pipeline ML) de Spark. Acabo de instalar un Spark 1.5.0 nuevo en un Ubuntu 14.04 (nospark-env.sh configurado). Mimy_script.py es: from ...
Desencadenar múltiples contextos
En breve : Clúster EC2: 1 maestro 3 esclavos Versión Spark: 1.3.1 Deseo usar la opciónspark.driver.allowMultipleContexts, un contexto local (solo maestro) y un clúster (maestro y esclavos). Recibo este error de stacktrace (la línea 29 es ...
Partición Spark: mucho más lenta que sin ella
Probé escribiendo con: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)Sin embargo, si dejo de lado la partición: df.write .mode(SaveMode.Append) .parquet(filePath)Se ejecuta 100x (!) Más rápido. ¿Es normal que la ...