Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

unionAll resultando en StackOverflow

He progresado con mi propia pregunta (¿Cómo cargar un marco de datos desde una secuencia de solicitudes de Python que está descargando un archivo ...

2 la respuesta

¿Cuál es la diferencia entre Spark Standalone, YARN y modo local?

Spark Standalone: En este modo, me di cuenta de que ejecuta sus nodos Master y trabajador en su máquina local. ¿Eso significa que tienes una instancia de YARN ejecutándose en mi máquina local? Desde cuando instalé Spark, vino con Hadoop y, por ...

4 la respuesta

Spark Dataframe validando nombres de columnas para escrituras de parquet (scala)

Estoy procesando eventos usando Dataframes convertidos a partir de una secuencia de eventos JSON que eventualmente se escribe como formato Parquet. Sin embargo, algunos de los eventos JSON contienen espacios en las teclas que deseo registrar y ...

3 la respuesta

Cómo verificar la versión de Spark [cerrado]

Quiero verificar la versión de chispa en cdh 5.7.0. He buscado en Internet pero no puedo entender. Por favor ayuda. Gracias

1 la respuesta

cómo combinar 3 pares de RDD

Tengo una especie de requisito complejo 1) 1) para Pinterest twitter handle , pinterest_post , pinterest_likes. handle "what" , 7 JavaPairRDD<String ,Pinterest> PintRDD2) para Instagram Twitter handle , instargam_post , instagram_likes handle ...

1 la respuesta

Apache Spark que maneja datos sesgados

Tengo dos mesas que me gustaría unir. Uno de ellos tiene un sesgo de datos muy malo. Esto está causando que mi trabajo de chispa no se ejecute en paralelo ya que la mayoría del trabajo se realiza en una partición. Escuché y leí e intenté ...

1 la respuesta

¿Por qué OneHotEncoder de Spark elimina la última categoría de forma predeterminada?

Me gustaría entender lo racional detrás del OneHotEncoder de Spark que deja caer la última categoría por defecto. Por ejemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...

4 la respuesta

java.lang.OutOfMemoryError: no se pueden adquirir 100 bytes de memoria, obtuve 0

Invoco Pyspark con Spark 2.0 en modo local con el siguiente comando: pyspark --executor-memory 4g --driver-memory 4gEl marco de datos de entrada se está leyendo desde un archivo tsv y tiene 580 K x 28 columnas. Estoy haciendo algunas operaciones ...

2 la respuesta

Spark on YARN utiliza menos vcores

Estoy usando Spark en un clúster YARN (HDP 2.4) con la siguiente configuración: 1 Masternode64 GB de RAM (50 GB utilizables)24 núcleos (19 núcleos utilizables)5 esclavos64 GB de RAM (50 GB utilizables) cada uno24 núcleos (19 núcleos utilizables) ...

2 la respuesta

cómo leer json con esquema en marcos de datos de chispa / spark sql

sql / dataframes, ayúdame o proporciona alguna buena sugerencia sobre cómo leer este json { "billdate":"2016-08-08', "accountid":"xxx" "accountdetails":{ "total":"1.1" "category":[ { "desc":"one", "currentinfo":{ "value":"10" }, "subcategory":[ ...