Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

Unirse a los marcos de datos de Spark en la clave

He construido dos marcos de datos. ¿Cómo podemos unir múltiples marcos de datos de Spark? Por ejemplo : PersonDf, ProfileDf con una columna común comopersonId como (clave). Ahora, ¿cómo podemos tener una combinación de Dataframe?PersonDf ...

4 la respuesta

Obtener el número actual de particiones de un DataFrame

¿Hay alguna forma de obtener el número actual de particiones de un DataFrame? Verifiqué el DataFrame javadoc (spark 1.6) y no encontré un método para eso, ¿o simplemente me lo perdí? (En el caso de JavaRDD, hay un método getNumPartitions ()).

0 la respuesta

Unir dos marcos de datos por id

Esta pregunta está relacionada con elel anterior [https://stackoverflow.com/questions/41701949/compare-dates-in-dataframes?noredirect=1#comment70599988_41701949] . Tengo dos marcos de datos en Scala: df1 = ID start_date_time field1 field2 1 ...

2 la respuesta

¿Qué conector HBase para Spark 2.0 debo usar?

Nuestra pila está compuesta por Google Data Proc (Spark 2.0) y Google BigTable (HBase 1.2.0) y estoy buscando un conector que funcione con estas versiones. El Spark 2.0 y el nuevo soporte API DataSet no me quedan claros para los conectores que ...

2 la respuesta

¿Puedo leer varios archivos en un Spark Dataframe desde S3, pasando por encima de los inexistentes?

Me gustaría leer varios archivos de parquet en un marco de datos de S3. Actualmente, estoy usando el siguiente método para hacer esto: files = ['s3a://dev/2017/01/03/data.parquet', 's3a://dev/2017/01/02/data.parquet'] df = ...

1 la respuesta

Cómo agregar en una ventana de tiempo variable con grupos en Spark

Tengo algunos datos que quiero agrupar por una determinada columna, luego agrego una serie de campos basados en una ventana de tiempo variable del grupo. Aquí hay algunos datos de ejemplo: df = spark.createDataFrame([Row(date='2016-01-01', ...

2 la respuesta

La aplicación Spark mata al ejecutor

Estoy ejecutando spark cluster en modo independiente y aplicación usando spark-submit. En la sección de etapa de UI de chispa, encontré la etapa de ejecución con un tiempo de ejecución grande (> 10 h, cuando el tiempo habitual es de ~ 30 ...

2 la respuesta

Spark Hive que informa pyspark.sql.utils.AnalysisException: u'Table not found: XXX 'cuando se ejecuta en el cluster de hilo

Estoy intentando ejecutar un script pyspark en BigInsights en Cloud 4.2 Enterprise que accede a una tabla de Hive. Primero creo la tabla de la colmena: [biadmin@bi4c-xxxxx-mastermanager ~]$ hive hive> CREATE TABLE pokes (foo INT, bar STRING); ...

1 la respuesta

Spark Hive que informa ClassNotFoundException: com.ibm.biginsights.bigsql.sync.BIEventListener

Estoy intentando ejecutar un script pyspark en BigInsights en Cloud 4.2 Enterprise que accede a una tabla de Hive. Primero creo la tabla de la colmena: [biadmin@bi4c-xxxxx-mastermanager ~]$ hive hive> CREATE TABLE pokes (foo INT, bar STRING); ...

1 la respuesta

Reutilice un Spark RDD en caché

¿Existe la posibilidad en Spark de reutilizar un RDD en caché en otra aplicación (o en otra ejecución de la misma aplicación)? JavaRDD<ExampleClass> toCache = ... // transformations on the RDD toCache.cache(); // can this be reused somehow in ...