Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Comprobando si un elemento RDD está en otro usando la función de mapa

Soy nuevo en Spark y me preguntaba acerca de los cierres. Tengo dos RDD, uno que contiene una lista de ID y valores, y el otro que contiene una lista de ID seleccionados. Usando un mapa, quiero aumentar el valor del elemento, si el otro RDD ...

3 la respuesta

Manejo de comas dentro de un campo en un archivo csv usando pyspark

Tengo un archivo de datos csv que contiene comas dentro de un valor de columna. Por ejemplo, value_1,value_2,value_3 AAA_A,BBB,B,CCC_CAquí, los valores son "AAA_A", "BBB, B", "CCC_C". Pero, cuando intento dividir la línea por una coma, me da ...

2 la respuesta

Cómo almacenar en caché un marco de datos de Spark y hacer referencia a él en otro script

¿Es posible almacenar en caché un marco de datos y luego hacer referencia (consultarlo) en otro script? ... Mi objetivo es el siguiente: En el script 1, cree un marco de datos (df)Ejecute el script 1 y la memoria caché dfEn el script 2, consulta ...

1 la respuesta

¿Cómo mejorar el resultado de mi recomendación? Estoy usando spark ALS implícito

Primero, tengo un historial de uso de la aplicación del usuario. Por ejemplo: usuario1, aplicación1, 3 (tiempos de lanzamiento) usuario2, aplicación2, 2 (tiempos de lanzamiento) usuario3, aplicación1, 1 (tiempos de lanzamiento) Tengo ...

4 la respuesta

SPARK SQL: actualice la tabla MySql utilizando DataFrames y JDBC

Estoy tratando de insertar y actualizar algunos datos en MySql usando Spark SQL DataFrames y conexión JDBC. He logrado insertar nuevos datos usando SaveMode.Append. ¿Hay alguna manera de actualizar los datos ya existentes en MySql Table desde ...

5 la respuesta

Spark: verifique la interfaz de usuario de su clúster para asegurarse de que los trabajadores estén registrados

Tengo un programa simple en Spark: /* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp { def main(args: Array[String]) { val conf = ...

6 la respuesta

¿Cómo agrego una columna persistente de identificadores de fila a Spark DataFrame?

Esta pregunta no es nueva, sin embargo, encuentro un comportamiento sorprendente en Spark. Necesito agregar una columna de ID de fila a un DataFrame. Utilicé el método DataFrame monotonically_increasing_id () y me da una columna adicional de ID ...

2 la respuesta

Valor de retorno de Scala calculado en foreach

Soy nuevo nuevo enScala y chispay tratando de entender algunas cosas básicas aquí afuera. Versión Spark utilizada 1.5. ¿Por qué el valor de la suma no se actualiza en el siguiente ciclo foreach? var sum=1; ...

2 la respuesta

Cómo excluir varias columnas en el marco de datos de Spark en Python

Encontré que PySpark tiene un método llamadodrop pero parece que solo puede soltar una columna a la vez. ¿Alguna idea sobre cómo soltar varias columnas al mismo tiempo? df.drop(['col1','col2']) TypeError Traceback (most recent call ...

1 la respuesta

¿Qué es un sombrío? ¿Cómo es diferente de mapPartitions?

Me he encontrado con elglom() método en RDD. Según la documentación Devuelve un RDD creado al fusionar todos los elementos dentro de cada partición en una matriz Haceglom baraja los datos a través de las particiones o solo devuelve los datos de ...