Resultados de la búsqueda a petición "apache-spark"
Spark 1.6: no se pudo localizar el binario winutils en la ruta binaria hadoop
Sé que hay una publicación muy similar a esta (Error al localizar el binario winutils en la ruta binaria hadoop [https://stackoverflow.com/questions/19620642/failed-to-locate-the-winutils-binary-in-the-hadoop-binary-path] ), sin embargo, he ...
Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id ya está configurado
Estoy usando spark 1.6 y me encuentro con el problema anterior cuando ejecuto el siguiente código: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import ...
Filtrado de RDD según la condición y la extracción de datos coincidentes en Spark Python
Tengo los datos como, cl_id cn_id cn_value 10004, 77173296 ,390.0 10004, 77173299 ,376.0 10004, 77173300 ,0.0 20005, 77173296 ,0.0 20005, 77173299 ,6.0 2005, 77438800 ,2.0ID de Cl_id: 10004, 20005 Filtrar por 10004 10004, 77173296 ,390.0 ...
Spark ignora SPARK_WORKER_MEMORY?
Estoy usando el modo de clúster independiente, 1.5.2. Aunque estoy configurandoSPARK_WORKER_MEMORY enspark-env.sh, parece que esta configuración se ignora. No puedo encontrar ninguna indicación en los scripts debajobin/sbin ese-Xms/-Xmx se ...
Pyspark DataFrame UDF en columna de texto
Estoy tratando de hacer una limpieza de texto NLP de algunas columnas Unicode en un PySpark DataFrame. He intentado en Spark 1.3, 1.5 y 1.6 y parece que no puedo hacer que las cosas funcionen para mí. También he intentado usar Python 2.7 y Python ...
Spark: aborde comandos intensivos de rendimiento como collect (), groupByKey (), reduceByKey ()
Sé que algunas de las acciones de Spark comocollect() Causar problemas de rendimiento. Ha sido citado endocumentación [http://spark.apache.org/docs/latest/programming-guide.html#transformations] Para imprimir todos los elementos en el ...
Partición DataFrame Por un solo archivo Parquet (por partición)
Me gustaría reparar / fusionar mis datos para que se guarden en un archivo Parquet por partición. También me gustaría usar la partición Spark SQL por API. Entonces podría hacer eso así: df.coalesce(1).write.partitionBy("entity", "year", "month", ...
spark-submit: --jars no funciona
Estoy creando un sistema de métricas para el trabajo de Spark Streaming, en el sistema, las métricas se recopilan en cada ejecutor, por lo que se debe inicializar una fuente de métricas (una clase utilizada para recopilar métricas) en cada ...
Spark Ejecución de archivo TB en memoria
Supongamos que tengo un archivo de datos Tb. Cada memoria de nodo en el clúster de diez nodos es de 3 GB. Quiero procesar el archivo usando spark. Pero, ¿cómo encaja One TeraByte en la memoria? ¿Se perderá la memoria? ¿Como funciona?
Problemas de confiabilidad con Checkpointing / WAL en Spark Streaming 1.6.0
DescripciónTenemos una aplicación Spark Streaming 1.5.2 en Scala que lee eventos JSON de un Kinesis Stream, realiza algunas transformaciones / agregaciones y escribe los resultados en diferentes prefijos S3. El intervalo de lote actual es de 60 ...