Resultados de la búsqueda a petición "apache-spark"

4 la respuesta

Trabajo Spark con llamada HTTP asíncrona

Construyo un RDD a partir de una lista de URL, y luego trato de obtener datos con alguna llamada http asíncrona. Necesito todos los resultados antes de hacer otros cálculos. Idealmente, necesito hacer las llamadas http en diferentes nodos para ...

2 la respuesta

Crear histogramas agrupados en Spark

Supongamos que tengo un marco de datos (df) (Pandas) o RDD (Spark) con las siguientes dos columnas: timestamp, data 12345.0 10 12346.0 12En Pandas, puedo crear un histograma en bin de diferentes longitudes de bin con bastante facilidad. Por ...

0 la respuesta

spark - problema de espacio de almacenamiento dinámico de Java - ExecutorLostFailure - contenedor salido con estado 143

Estoy leyendo la cadena que tiene una longitud de más de 100k bytes y estoy dividiendo las columnas según el ancho. Tengo cerca de 16K columnas que dividí de la cadena anterior en función del ancho. pero mientras escribo en el parquet estoy ...

2 la respuesta

la agrupación de trama de datos de chispa no cuenta nulos

Tengo un DataFrame de chispa que se agrupa por una columna agregada con un recuento: df.groupBy('a').agg(count("a")).show +---------+----------------+ |a |count(a) | +---------+----------------+ | null| 0| | -90| ...

3 la respuesta

¿Cómo se pueden enumerar todos los archivos csv en una ubicación HDFS dentro del shell Spark Scala?

El propósito de esto es manipular y guardar una copia de cada archivo de datos en una segunda ubicación en HDFS. Estaré usando RddName.coalesce(1).saveAsTextFile(pathName)para guardar el resultado en HDFS. Es por eso que quiero hacer cada ...

1 la respuesta

Cómo generar archivos de parquet utilizando Java puro (incluidos los tipos de fecha y decimales) y cargarlos en S3 [Windows] (sin HDFS)

Recientemente tuve un requisito en el que necesitaba generar archivos de Parquet que pudieran ser leídos por Apache Spark utilizando solo Java (sin instalaciones de software adicionales como: Apache Drill, Hive, Spark, etc.). Los archivos debían ...

2 la respuesta

Cómo obligar a Spark a evaluar las operaciones de DataFrame en línea

De acuerdo con laSpark RDD docs [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas las transformaciones en Spark son perezosas, ya que no calculan sus resultados de inmediato ... Este diseño permite que Spark se ...

2 la respuesta

restar dos columnas con nulo en el marco de datos de chispa

Soy nuevo en spark, tengo dataframe df: +----------+------------+-----------+ | Column1 | Column2 | Sub | +----------+------------+-----------+ | 1 | 2 | 1 | +----------+------------+-----------+ | 4 | null | null ...

2 la respuesta

¿Cómo hacer lo contrario de explotar en PySpark?

Digamos que tengo unDataFrame con una columna para usuarios y otra columna para palabras que han escrito: Row(user='Bob', word='hello') Row(user='Bob', word='world') Row(user='Mary', word='Have') Row(user='Mary', word='a') Row(user='Mary', ...

1 la respuesta

Error: scalac: mala referencia simbólica. Una firma en SQLContext.class se refiere al tipo Logging en el paquete org.apache.spark que no está disponible

Cuando cumplí con un archivo scala utilizado IntelliJ IDEA, se mostró el siguiente error. Error: scalac: mala referencia simbólica. Una firma en SQLContext.class se refiere al tipo Logging en el paquete org.apache.spark que no está ...