Resultados de la búsqueda a petición "apache-spark"
unionAll resultando en StackOverflow
He progresado con mi propia pregunta (¿Cómo cargar un marco de datos desde una secuencia de solicitudes de Python que está descargando un archivo ...
¿Cuál es la diferencia entre Spark Standalone, YARN y modo local?
Spark Standalone: En este modo, me di cuenta de que ejecuta sus nodos Master y trabajador en su máquina local. ¿Eso significa que tienes una instancia de YARN ejecutándose en mi máquina local? Desde cuando instalé Spark, vino con Hadoop y, por ...
Spark Dataframe validando nombres de columnas para escrituras de parquet (scala)
Estoy procesando eventos usando Dataframes convertidos a partir de una secuencia de eventos JSON que eventualmente se escribe como formato Parquet. Sin embargo, algunos de los eventos JSON contienen espacios en las teclas que deseo registrar y ...
Cómo verificar la versión de Spark [cerrado]
Quiero verificar la versión de chispa en cdh 5.7.0. He buscado en Internet pero no puedo entender. Por favor ayuda. Gracias
cómo combinar 3 pares de RDD
Tengo una especie de requisito complejo 1) 1) para Pinterest twitter handle , pinterest_post , pinterest_likes. handle "what" , 7 JavaPairRDD<String ,Pinterest> PintRDD2) para Instagram Twitter handle , instargam_post , instagram_likes handle ...
Apache Spark que maneja datos sesgados
Tengo dos mesas que me gustaría unir. Uno de ellos tiene un sesgo de datos muy malo. Esto está causando que mi trabajo de chispa no se ejecute en paralelo ya que la mayoría del trabajo se realiza en una partición. Escuché y leí e intenté ...
¿Por qué OneHotEncoder de Spark elimina la última categoría de forma predeterminada?
Me gustaría entender lo racional detrás del OneHotEncoder de Spark que deja caer la última categoría por defecto. Por ejemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...
java.lang.OutOfMemoryError: no se pueden adquirir 100 bytes de memoria, obtuve 0
Invoco Pyspark con Spark 2.0 en modo local con el siguiente comando: pyspark --executor-memory 4g --driver-memory 4gEl marco de datos de entrada se está leyendo desde un archivo tsv y tiene 580 K x 28 columnas. Estoy haciendo algunas operaciones ...
Spark on YARN utiliza menos vcores
Estoy usando Spark en un clúster YARN (HDP 2.4) con la siguiente configuración: 1 Masternode64 GB de RAM (50 GB utilizables)24 núcleos (19 núcleos utilizables)5 esclavos64 GB de RAM (50 GB utilizables) cada uno24 núcleos (19 núcleos utilizables) ...
cómo leer json con esquema en marcos de datos de chispa / spark sql
sql / dataframes, ayúdame o proporciona alguna buena sugerencia sobre cómo leer este json { "billdate":"2016-08-08', "accountid":"xxx" "accountdetails":{ "total":"1.1" "category":[ { "desc":"one", "currentinfo":{ "value":"10" }, "subcategory":[ ...