Resultados de la búsqueda a petición "apache-spark"

He progresado con mi propia pregunta (¿Cómo cargar un marco de datos desde una secuencia de solicitudes de Python que está descargando un archivo ...

2 la respuesta

¿Cuál es la diferencia entre Spark Standalone, YARN y modo local?

Spark Standalone: En este modo, me di cuenta de que ejecuta sus nodos Master y trabajador en su máquina local. ¿Eso significa que tienes una instancia de YARN ejecutándose en mi máquina local? Desde cuando instalé Spark, vino con Hadoop y, por ...

spark-dataframe apache-spark-sql spark-streaming parquet

4 la respuesta

Spark Dataframe validando nombres de columnas para escrituras de parquet (scala)

Estoy procesando eventos usando Dataframes convertidos a partir de una secuencia de eventos JSON que eventualmente se escribe como formato Parquet. Sin embargo, algunos de los eventos JSON contienen espacios en las teclas que deseo registrar y ...

hadoop cloudera bigdata

3 la respuesta

Cómo verificar la versión de Spark [cerrado]

Quiero verificar la versión de chispa en cdh 5.7.0. He buscado en Internet pero no puedo entender. Por favor ayuda. Gracias

rdd java

1 la respuesta

cómo combinar 3 pares de RDD

Tengo una especie de requisito complejo 1) 1) para Pinterest twitter handle , pinterest_post , pinterest_likes. handle "what" , 7 JavaPairRDD<String ,Pinterest> PintRDD2) para Instagram Twitter handle , instargam_post , instagram_likes handle ...

hadoop scala spark-dataframe

1 la respuesta

Apache Spark que maneja datos sesgados

Tengo dos mesas que me gustaría unir. Uno de ellos tiene un sesgo de datos muy malo. Esto está causando que mi trabajo de chispa no se ejecute en paralelo ya que la mayoría del trabajo se realiza en una partición. Escuché y leí e intenté ...

machine-learning pyspark one-hot-encoding bigdata

1 la respuesta

¿Por qué OneHotEncoder de Spark elimina la última categoría de forma predeterminada?

Me gustaría entender lo racional detrás del OneHotEncoder de Spark que deja caer la última categoría por defecto. Por ejemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...

memory pyspark python hadoop

4 la respuesta

java.lang.OutOfMemoryError: no se pueden adquirir 100 bytes de memoria, obtuve 0

Invoco Pyspark con Spark 2.0 en modo local con el siguiente comando: pyspark --executor-memory 4g --driver-memory 4gEl marco de datos de entrada se está leyendo desde un archivo tsv y tiene 580 K x 28 columnas. Estoy haciendo algunas operaciones ...

yarn hortonworks-data-platform resource-management

2 la respuesta

Spark on YARN utiliza menos vcores

Estoy usando Spark en un clúster YARN (HDP 2.4) con la siguiente configuración: 1 Masternode64 GB de RAM (50 GB utilizables)24 núcleos (19 núcleos utilizables)5 esclavos64 GB de RAM (50 GB utilizables) cada uno24 núcleos (19 núcleos utilizables) ...

scala apache-spark-sql dataframe

2 la respuesta

cómo leer json con esquema en marcos de datos de chispa / spark sql

sql / dataframes, ayúdame o proporciona alguna buena sugerencia sobre cómo leer este json { "billdate":"2016-08-08', "accountid":"xxx" "accountdetails":{ "total":"1.1" "category":[ { "desc":"one", "currentinfo":{ "value":"10" }, "subcategory":[ ...

Página 16 de 165

14 151617 18

Resultados de la búsqueda a petición "apache-spark"

unionAll resultando en StackOverflow

¿Cuál es la diferencia entre Spark Standalone, YARN y modo local?

Spark Dataframe validando nombres de columnas para escrituras de parquet (scala)

Etiquetas Populares

Cómo verificar la versión de Spark [cerrado]

cómo combinar 3 pares de RDD

Apache Spark que maneja datos sesgados

¿Por qué OneHotEncoder de Spark elimina la última categoría de forma predeterminada?

java.lang.OutOfMemoryError: no se pueden adquirir 100 bytes de memoria, obtuve 0

Spark on YARN utiliza menos vcores

cómo leer json con esquema en marcos de datos de chispa / spark sql

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares