Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Spark RDD: ¿Cómo calcular las estadísticas de manera más eficiente?

Suponiendo la existencia de un RDD de tuplas similar al siguiente: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...¿Cuál es la forma más eficiente (e idealmente distribuida) de calcular las estadísticas correspondientes ...

1 la respuesta

¿Qué es spark.driver.maxResultSize?

losárbitro [http://spark.apache.org/docs/latest/configuration.html]dice: Límite del tamaño total de los resultados serializados de todas las particiones para cada acción de Spark (por ejemplo, recopilar). Debe ser al menos 1M, o 0 para ...

3 la respuesta

Limite el tamaño de los lotes de Kafka cuando use Spark Streaming

¿Es posible limitar el tamaño de los lotes devueltos por el consumidor de Kafka para Spark Streaming? Lo pregunto porque el primer lote que obtengo tiene cientos de millones de registros y lleva años procesarlos y revisarlos.

1 la respuesta

Apache spark que trata con declaraciones de casos

Estoy tratando de transformar el código SQL en código PySpark y encontré algunas declaraciones SQL. No sé cómo abordar las declaraciones de casos en pyspark? Estoy planeando crear un RDD y luego usar rdd.map y luego hacer algunas verificaciones ...

1 la respuesta

El controlador de transmisión de Twitter Spark 2.0.0 ya no está disponible

Durante la migración de spark 1.6.2 a spark 2.0.0 apareció que el paquete org.apache.spark.streaming.twitter se ha eliminado y la transmisión de Twitter ya no está disponible, así como la dependencia <dependency> ...

9 la respuesta

Sobrescribir particiones específicas en el método de escritura de trama de datos de chispa

Quiero sobrescribir particiones específicas en lugar de todas en chispa. Estoy intentando el siguiente comando: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')donde df es un marco de datos que tiene los datos ...

1 la respuesta

Scala: cómo obtener un rango de filas en un marco de datos

tengo unDataFrame creado ejecutandosqlContext.read de un archivo de parquet. losDataFrame consta de 300 M de hileras. Necesito usar estas filas como entrada para otra función, pero quiero hacerlo en lotes más pequeños para evitar errores de ...

2 la respuesta

Spark CrossValidatorModel accede a otros modelos que no sean bestModel?

Estoy usando Spark 1.6.1: Actualmente estoy usando un CrossValidator para entrenar mi ML Pipeline con varios parámetros. Después del proceso de capacitación, puedo usar la propiedad bestModel de CrossValidatorModel para obtener el modelo que ...

3 la respuesta

¿Cómo crear SparkSession con soporte de Hive (falla con "No se encuentran las clases de Hive")?

Recibo este error cuando intento ejecutar este código. import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; public class App { public static void main(String[] args) throws Exception { ...

2 la respuesta

Configuración autónoma de Spark que tiene múltiples ejecutores

Estoy tratando de configurar un servidor Spark 2.0 independiente para procesar una función de análisis en paralelo. Para hacer esto quiero tener un solo trabajador con múltiples ejecutores. Estoy usando : Spark 2.0 independiente8 núcleos24 gig ...