Resultados de la búsqueda a petición "apache-spark"
Comprobando si un elemento RDD está en otro usando la función de mapa
Soy nuevo en Spark y me preguntaba acerca de los cierres. Tengo dos RDD, uno que contiene una lista de ID y valores, y el otro que contiene una lista de ID seleccionados. Usando un mapa, quiero aumentar el valor del elemento, si el otro RDD ...
Manejo de comas dentro de un campo en un archivo csv usando pyspark
Tengo un archivo de datos csv que contiene comas dentro de un valor de columna. Por ejemplo, value_1,value_2,value_3 AAA_A,BBB,B,CCC_CAquí, los valores son "AAA_A", "BBB, B", "CCC_C". Pero, cuando intento dividir la línea por una coma, me da ...
Cómo almacenar en caché un marco de datos de Spark y hacer referencia a él en otro script
¿Es posible almacenar en caché un marco de datos y luego hacer referencia (consultarlo) en otro script? ... Mi objetivo es el siguiente: En el script 1, cree un marco de datos (df)Ejecute el script 1 y la memoria caché dfEn el script 2, consulta ...
¿Cómo mejorar el resultado de mi recomendación? Estoy usando spark ALS implícito
Primero, tengo un historial de uso de la aplicación del usuario. Por ejemplo: usuario1, aplicación1, 3 (tiempos de lanzamiento) usuario2, aplicación2, 2 (tiempos de lanzamiento) usuario3, aplicación1, 1 (tiempos de lanzamiento) Tengo ...
SPARK SQL: actualice la tabla MySql utilizando DataFrames y JDBC
Estoy tratando de insertar y actualizar algunos datos en MySql usando Spark SQL DataFrames y conexión JDBC. He logrado insertar nuevos datos usando SaveMode.Append. ¿Hay alguna manera de actualizar los datos ya existentes en MySql Table desde ...
Spark: verifique la interfaz de usuario de su clúster para asegurarse de que los trabajadores estén registrados
Tengo un programa simple en Spark: /* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp { def main(args: Array[String]) { val conf = ...
¿Cómo agrego una columna persistente de identificadores de fila a Spark DataFrame?
Esta pregunta no es nueva, sin embargo, encuentro un comportamiento sorprendente en Spark. Necesito agregar una columna de ID de fila a un DataFrame. Utilicé el método DataFrame monotonically_increasing_id () y me da una columna adicional de ID ...
Valor de retorno de Scala calculado en foreach
Soy nuevo nuevo enScala y chispay tratando de entender algunas cosas básicas aquí afuera. Versión Spark utilizada 1.5. ¿Por qué el valor de la suma no se actualiza en el siguiente ciclo foreach? var sum=1; ...
Cómo excluir varias columnas en el marco de datos de Spark en Python
Encontré que PySpark tiene un método llamadodrop pero parece que solo puede soltar una columna a la vez. ¿Alguna idea sobre cómo soltar varias columnas al mismo tiempo? df.drop(['col1','col2']) TypeError Traceback (most recent call ...
¿Qué es un sombrío? ¿Cómo es diferente de mapPartitions?
Me he encontrado con elglom() método en RDD. Según la documentación Devuelve un RDD creado al fusionar todos los elementos dentro de cada partición en una matriz Haceglom baraja los datos a través de las particiones o solo devuelve los datos de ...