Resultados de la búsqueda a petición "apache-spark"

5 la respuesta

Spark 1.6: no se pudo localizar el binario winutils en la ruta binaria hadoop

Sé que hay una publicación muy similar a esta (Error al localizar el binario winutils en la ruta binaria hadoop [https://stackoverflow.com/questions/19620642/failed-to-locate-the-winutils-binary-in-the-hadoop-binary-path] ), sin embargo, he ...

3 la respuesta

Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id ya está configurado

Estoy usando spark 1.6 y me encuentro con el problema anterior cuando ejecuto el siguiente código: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import ...

1 la respuesta

Filtrado de RDD según la condición y la extracción de datos coincidentes en Spark Python

Tengo los datos como, cl_id cn_id cn_value 10004, 77173296 ,390.0 10004, 77173299 ,376.0 10004, 77173300 ,0.0 20005, 77173296 ,0.0 20005, 77173299 ,6.0 2005, 77438800 ,2.0ID de Cl_id: 10004, 20005 Filtrar por 10004 10004, 77173296 ,390.0 ...

4 la respuesta

Spark ignora SPARK_WORKER_MEMORY?

Estoy usando el modo de clúster independiente, 1.5.2. Aunque estoy configurandoSPARK_WORKER_MEMORY enspark-env.sh, parece que esta configuración se ignora. No puedo encontrar ninguna indicación en los scripts debajobin/sbin ese-Xms/-Xmx se ...

3 la respuesta

Pyspark DataFrame UDF en columna de texto

Estoy tratando de hacer una limpieza de texto NLP de algunas columnas Unicode en un PySpark DataFrame. He intentado en Spark 1.3, 1.5 y 1.6 y parece que no puedo hacer que las cosas funcionen para mí. También he intentado usar Python 2.7 y Python ...

1 la respuesta

Spark: aborde comandos intensivos de rendimiento como collect (), groupByKey (), reduceByKey ()

Sé que algunas de las acciones de Spark comocollect() Causar problemas de rendimiento. Ha sido citado endocumentación [http://spark.apache.org/docs/latest/programming-guide.html#transformations] Para imprimir todos los elementos en el ...

2 la respuesta

Partición DataFrame Por un solo archivo Parquet (por partición)

Me gustaría reparar / fusionar mis datos para que se guarden en un archivo Parquet por partición. También me gustaría usar la partición Spark SQL por API. Entonces podría hacer eso así: df.coalesce(1).write.partitionBy("entity", "year", "month", ...

1 la respuesta

spark-submit: --jars no funciona

Estoy creando un sistema de métricas para el trabajo de Spark Streaming, en el sistema, las métricas se recopilan en cada ejecutor, por lo que se debe inicializar una fuente de métricas (una clase utilizada para recopilar métricas) en cada ...

2 la respuesta

Spark Ejecución de archivo TB en memoria

Supongamos que tengo un archivo de datos Tb. Cada memoria de nodo en el clúster de diez nodos es de 3 GB. Quiero procesar el archivo usando spark. Pero, ¿cómo encaja One TeraByte en la memoria? ¿Se perderá la memoria? ¿Como funciona?

1 la respuesta

Problemas de confiabilidad con Checkpointing / WAL en Spark Streaming 1.6.0

DescripciónTenemos una aplicación Spark Streaming 1.5.2 en Scala que lee eventos JSON de un Kinesis Stream, realiza algunas transformaciones / agregaciones y escribe los resultados en diferentes prefijos S3. El intervalo de lote actual es de 60 ...