Resultados de la búsqueda a petición "apache-spark"

6 la respuesta

"Mala sustitución" cuando se envía trabajo de chispa al grupo de hilos

Estoy haciendo una prueba de humo contra un grupo de hilos usandoyarn-cluster como el maestro con elSparkPi programa de ejemplo. Aquí está la línea de comando: $SPARK_HOME/bin/spark-submit --master yarn-cluster --executor-memory ...

3 la respuesta

Cómo cambiar las propiedades de SparkContext en la sesión interactiva de PySpark

¿Cómo puedo cambiar spark.driver.maxResultSize en el shell interactivo pyspark? He usado el siguiente código from pyspark import SparkConf, SparkContext conf = (SparkConf() .set("spark.driver.maxResultSize", "10g")) sc.stop() ...

3 la respuesta

Eliminar tablas temporales de Apache SQL Spark

yo tengoregistertemptable enApache Spark utilizandoZeppelin abajo: val hvacText = sc.textFile("...") case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String) val hvac = hvacText.map(s => ...

2 la respuesta

usar el paquete spark cassandra en Azure Data Factory

Creé un script pyspark que funciona bien cuando lo ejecuto conspark-submit: spark-submit --packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.6 --conf spark.cassandra.connection.host=12.34.56.68 test_cassandra.pyComo estoy trabajando ...

3 la respuesta

La diferencia entre countDistinct y distinct.count

¿Por qué obtengo diferentes salidas para..agg(countDistinct("member_id") as "count") y..distinct.count? ¿Es la diferencia la misma que entreselect count(distinct member_id) yselect distinct count(member_id)?

1 la respuesta

Rendimiento de chispa para Scala vs Python

Prefiero Python sobre Scala. Pero, como Spark está escrito de forma nativa en Scala, esperaba que mi código se ejecute más rápido en Scala que en la versión de Python por razones obvias. Con esa suposición, pensé en aprender y escribir la ...

3 la respuesta

Spark y SparkSQL: ¿Cómo imitar la función de ventana?

DescripciónDado un marco de datosdf id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04Quiero crear un contador o índice en ejecución, agrupados por la misma identificación yordenado por fecha en ...

4 la respuesta

Convertir fecha de nacimiento en edad en Spark Dataframe API

Esto parece simple pero no pude encontrar la respuesta. Estoy tratando de convertir una columna de fecha de nacimiento en el siguiente formato de fecha al formato de fecha en Spark Dataframe API y luego calcular las edades correspondientes. ...

1 la respuesta

¿Cómo procesar RDDs usando una clase Python?

Estoy implementando un modelo en Spark como una clase de python, y cada vez que intento asignar un método de clase a un RDD, falla. Mi código real es más complicado, pero esta versión simplificada es el núcleo del problema: class model(object): ...

1 la respuesta

Lectura de la enorme colección MongoDB de Spark con la ayuda de Worker

Quiero leer una gran colección de MongoDB de Spark, crear un RDD persistente y hacer más análisis de datos sobre él. ¿Hay alguna manera de leer los datos de MongoDB más rápido? He intentado con el enfoque de MongoDB Java + Casbah ¿Puedo usar el ...