Resultados de la búsqueda a petición "apache-spark"

Suponiendo la existencia de un RDD de tuplas similar al siguiente: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...¿Cuál es la forma más eficiente (e idealmente distribuida) de calcular las estadísticas correspondientes ...

driver communication distributed-computing configuration

1 la respuesta

¿Qué es spark.driver.maxResultSize?

losárbitro [http://spark.apache.org/docs/latest/configuration.html]dice: Límite del tamaño total de los resultados serializados de todas las particiones para cada acción de Spark (por ejemplo, recopilar). Debe ser al menos 1M, o 0 para ...

apache-kafka spark-streaming kafka-consumer-api

3 la respuesta

Limite el tamaño de los lotes de Kafka cuando use Spark Streaming

¿Es posible limitar el tamaño de los lotes devueltos por el consumidor de Kafka para Spark Streaming? Lo pregunto porque el primer lote que obtengo tiene cientos de millones de registros y lleva años procesarlos y revisarlos.

pyspark-sql rdd spark-dataframe pyspark

1 la respuesta

Apache spark que trata con declaraciones de casos

Estoy tratando de transformar el código SQL en código PySpark y encontré algunas declaraciones SQL. No sé cómo abordar las declaraciones de casos en pyspark? Estoy planeando crear un RDD y luego usar rdd.map y luego hacer algunas verificaciones ...

twitter-streaming-api spark-streaming

1 la respuesta

El controlador de transmisión de Twitter Spark 2.0.0 ya no está disponible

Durante la migración de spark 1.6.2 a spark 2.0.0 apareció que el paquete org.apache.spark.streaming.twitter se ha eliminado y la transmisión de Twitter ya no está disponible, así como la dependencia <dependency> ...

spark-dataframe apache-spark-sql

9 la respuesta

Sobrescribir particiones específicas en el método de escritura de trama de datos de chispa

Quiero sobrescribir particiones específicas en lugar de todas en chispa. Estoy intentando el siguiente comando: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')donde df es un marco de datos que tiene los datos ...

dataframe scala

1 la respuesta

Scala: cómo obtener un rango de filas en un marco de datos

tengo unDataFrame creado ejecutandosqlContext.read de un archivo de parquet. losDataFrame consta de 300 M de hileras. Necesito usar estas filas como entrada para otra función, pero quiero hacerlo en lotes más pequeños para evitar errores de ...

cross-validation apache-spark-mllib apache-spark-1.6

2 la respuesta

Spark CrossValidatorModel accede a otros modelos que no sean bestModel?

Estoy usando Spark 1.6.1: Actualmente estoy usando un CrossValidator para entrenar mi ML Pipeline con varios parámetros. Después del proceso de capacitación, puedo usar la propiedad bestModel de CrossValidatorModel para obtener el modelo que ...

java apache-spark-sql hive

3 la respuesta

¿Cómo crear SparkSession con soporte de Hive (falla con "No se encuentran las clases de Hive")?

Recibo este error cuando intento ejecutar este código. import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; public class App { public static void main(String[] args) throws Exception { ...

pyspark

2 la respuesta

Configuración autónoma de Spark que tiene múltiples ejecutores

Estoy tratando de configurar un servidor Spark 2.0 independiente para procesar una función de análisis en paralelo. Para hacer esto quiero tener un solo trabajador con múltiples ejecutores. Estoy usando : Spark 2.0 independiente8 núcleos24 gig ...

Página 27 de 165

25 262728 29

Resultados de la búsqueda a petición "apache-spark"

Spark RDD: ¿Cómo calcular las estadísticas de manera más eficiente?

¿Qué es spark.driver.maxResultSize?

Limite el tamaño de los lotes de Kafka cuando use Spark Streaming

Etiquetas Populares

Apache spark que trata con declaraciones de casos

El controlador de transmisión de Twitter Spark 2.0.0 ya no está disponible

Sobrescribir particiones específicas en el método de escritura de trama de datos de chispa

Scala: cómo obtener un rango de filas en un marco de datos

Spark CrossValidatorModel accede a otros modelos que no sean bestModel?

¿Cómo crear SparkSession con soporte de Hive (falla con "No se encuentran las clases de Hive")?

Configuración autónoma de Spark que tiene múltiples ejecutores

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares