Resultados de la búsqueda a petición "apache-spark"
"Mala sustitución" cuando se envía trabajo de chispa al grupo de hilos
Estoy haciendo una prueba de humo contra un grupo de hilos usandoyarn-cluster como el maestro con elSparkPi programa de ejemplo. Aquí está la línea de comando: $SPARK_HOME/bin/spark-submit --master yarn-cluster --executor-memory ...
Cómo cambiar las propiedades de SparkContext en la sesión interactiva de PySpark
¿Cómo puedo cambiar spark.driver.maxResultSize en el shell interactivo pyspark? He usado el siguiente código from pyspark import SparkConf, SparkContext conf = (SparkConf() .set("spark.driver.maxResultSize", "10g")) sc.stop() ...
Eliminar tablas temporales de Apache SQL Spark
yo tengoregistertemptable enApache Spark utilizandoZeppelin abajo: val hvacText = sc.textFile("...") case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String) val hvac = hvacText.map(s => ...
usar el paquete spark cassandra en Azure Data Factory
Creé un script pyspark que funciona bien cuando lo ejecuto conspark-submit: spark-submit --packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.6 --conf spark.cassandra.connection.host=12.34.56.68 test_cassandra.pyComo estoy trabajando ...
La diferencia entre countDistinct y distinct.count
¿Por qué obtengo diferentes salidas para..agg(countDistinct("member_id") as "count") y..distinct.count? ¿Es la diferencia la misma que entreselect count(distinct member_id) yselect distinct count(member_id)?
Rendimiento de chispa para Scala vs Python
Prefiero Python sobre Scala. Pero, como Spark está escrito de forma nativa en Scala, esperaba que mi código se ejecute más rápido en Scala que en la versión de Python por razones obvias. Con esa suposición, pensé en aprender y escribir la ...
Spark y SparkSQL: ¿Cómo imitar la función de ventana?
DescripciónDado un marco de datosdf id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04Quiero crear un contador o índice en ejecución, agrupados por la misma identificación yordenado por fecha en ...
Convertir fecha de nacimiento en edad en Spark Dataframe API
Esto parece simple pero no pude encontrar la respuesta. Estoy tratando de convertir una columna de fecha de nacimiento en el siguiente formato de fecha al formato de fecha en Spark Dataframe API y luego calcular las edades correspondientes. ...
¿Cómo procesar RDDs usando una clase Python?
Estoy implementando un modelo en Spark como una clase de python, y cada vez que intento asignar un método de clase a un RDD, falla. Mi código real es más complicado, pero esta versión simplificada es el núcleo del problema: class model(object): ...
Lectura de la enorme colección MongoDB de Spark con la ayuda de Worker
Quiero leer una gran colección de MongoDB de Spark, crear un RDD persistente y hacer más análisis de datos sobre él. ¿Hay alguna manera de leer los datos de MongoDB más rápido? He intentado con el enfoque de MongoDB Java + Casbah ¿Puedo usar el ...