Resultados de la búsqueda a petición "apache-spark"
Unirse a los marcos de datos de Spark en la clave
He construido dos marcos de datos. ¿Cómo podemos unir múltiples marcos de datos de Spark? Por ejemplo : PersonDf, ProfileDf con una columna común comopersonId como (clave). Ahora, ¿cómo podemos tener una combinación de Dataframe?PersonDf ...
Obtener el número actual de particiones de un DataFrame
¿Hay alguna forma de obtener el número actual de particiones de un DataFrame? Verifiqué el DataFrame javadoc (spark 1.6) y no encontré un método para eso, ¿o simplemente me lo perdí? (En el caso de JavaRDD, hay un método getNumPartitions ()).
Unir dos marcos de datos por id
Esta pregunta está relacionada con elel anterior [https://stackoverflow.com/questions/41701949/compare-dates-in-dataframes?noredirect=1#comment70599988_41701949] . Tengo dos marcos de datos en Scala: df1 = ID start_date_time field1 field2 1 ...
¿Qué conector HBase para Spark 2.0 debo usar?
Nuestra pila está compuesta por Google Data Proc (Spark 2.0) y Google BigTable (HBase 1.2.0) y estoy buscando un conector que funcione con estas versiones. El Spark 2.0 y el nuevo soporte API DataSet no me quedan claros para los conectores que ...
¿Puedo leer varios archivos en un Spark Dataframe desde S3, pasando por encima de los inexistentes?
Me gustaría leer varios archivos de parquet en un marco de datos de S3. Actualmente, estoy usando el siguiente método para hacer esto: files = ['s3a://dev/2017/01/03/data.parquet', 's3a://dev/2017/01/02/data.parquet'] df = ...
Cómo agregar en una ventana de tiempo variable con grupos en Spark
Tengo algunos datos que quiero agrupar por una determinada columna, luego agrego una serie de campos basados en una ventana de tiempo variable del grupo. Aquí hay algunos datos de ejemplo: df = spark.createDataFrame([Row(date='2016-01-01', ...
La aplicación Spark mata al ejecutor
Estoy ejecutando spark cluster en modo independiente y aplicación usando spark-submit. En la sección de etapa de UI de chispa, encontré la etapa de ejecución con un tiempo de ejecución grande (> 10 h, cuando el tiempo habitual es de ~ 30 ...
Spark Hive que informa pyspark.sql.utils.AnalysisException: u'Table not found: XXX 'cuando se ejecuta en el cluster de hilo
Estoy intentando ejecutar un script pyspark en BigInsights en Cloud 4.2 Enterprise que accede a una tabla de Hive. Primero creo la tabla de la colmena: [biadmin@bi4c-xxxxx-mastermanager ~]$ hive hive> CREATE TABLE pokes (foo INT, bar STRING); ...
Spark Hive que informa ClassNotFoundException: com.ibm.biginsights.bigsql.sync.BIEventListener
Estoy intentando ejecutar un script pyspark en BigInsights en Cloud 4.2 Enterprise que accede a una tabla de Hive. Primero creo la tabla de la colmena: [biadmin@bi4c-xxxxx-mastermanager ~]$ hive hive> CREATE TABLE pokes (foo INT, bar STRING); ...
Reutilice un Spark RDD en caché
¿Existe la posibilidad en Spark de reutilizar un RDD en caché en otra aplicación (o en otra ejecución de la misma aplicación)? JavaRDD<ExampleClass> toCache = ... // transformations on the RDD toCache.cache(); // can this be reused somehow in ...