Resultados de la búsqueda a petición "apache-spark"
Trabajo Spark con llamada HTTP asíncrona
Construyo un RDD a partir de una lista de URL, y luego trato de obtener datos con alguna llamada http asíncrona. Necesito todos los resultados antes de hacer otros cálculos. Idealmente, necesito hacer las llamadas http en diferentes nodos para ...
Crear histogramas agrupados en Spark
Supongamos que tengo un marco de datos (df) (Pandas) o RDD (Spark) con las siguientes dos columnas: timestamp, data 12345.0 10 12346.0 12En Pandas, puedo crear un histograma en bin de diferentes longitudes de bin con bastante facilidad. Por ...
spark - problema de espacio de almacenamiento dinámico de Java - ExecutorLostFailure - contenedor salido con estado 143
Estoy leyendo la cadena que tiene una longitud de más de 100k bytes y estoy dividiendo las columnas según el ancho. Tengo cerca de 16K columnas que dividí de la cadena anterior en función del ancho. pero mientras escribo en el parquet estoy ...
la agrupación de trama de datos de chispa no cuenta nulos
Tengo un DataFrame de chispa que se agrupa por una columna agregada con un recuento: df.groupBy('a').agg(count("a")).show +---------+----------------+ |a |count(a) | +---------+----------------+ | null| 0| | -90| ...
¿Cómo se pueden enumerar todos los archivos csv en una ubicación HDFS dentro del shell Spark Scala?
El propósito de esto es manipular y guardar una copia de cada archivo de datos en una segunda ubicación en HDFS. Estaré usando RddName.coalesce(1).saveAsTextFile(pathName)para guardar el resultado en HDFS. Es por eso que quiero hacer cada ...
Cómo generar archivos de parquet utilizando Java puro (incluidos los tipos de fecha y decimales) y cargarlos en S3 [Windows] (sin HDFS)
Recientemente tuve un requisito en el que necesitaba generar archivos de Parquet que pudieran ser leídos por Apache Spark utilizando solo Java (sin instalaciones de software adicionales como: Apache Drill, Hive, Spark, etc.). Los archivos debían ...
Cómo obligar a Spark a evaluar las operaciones de DataFrame en línea
De acuerdo con laSpark RDD docs [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas las transformaciones en Spark son perezosas, ya que no calculan sus resultados de inmediato ... Este diseño permite que Spark se ...
restar dos columnas con nulo en el marco de datos de chispa
Soy nuevo en spark, tengo dataframe df: +----------+------------+-----------+ | Column1 | Column2 | Sub | +----------+------------+-----------+ | 1 | 2 | 1 | +----------+------------+-----------+ | 4 | null | null ...
¿Cómo hacer lo contrario de explotar en PySpark?
Digamos que tengo unDataFrame con una columna para usuarios y otra columna para palabras que han escrito: Row(user='Bob', word='hello') Row(user='Bob', word='world') Row(user='Mary', word='Have') Row(user='Mary', word='a') Row(user='Mary', ...
Error: scalac: mala referencia simbólica. Una firma en SQLContext.class se refiere al tipo Logging en el paquete org.apache.spark que no está disponible
Cuando cumplí con un archivo scala utilizado IntelliJ IDEA, se mostró el siguiente error. Error: scalac: mala referencia simbólica. Una firma en SQLContext.class se refiere al tipo Logging en el paquete org.apache.spark que no está ...