Resultados de la búsqueda a petición "apache-spark"
Múltiples condiciones para el filtro en marcos de datos de chispa
Tengo un marco de datos con cuatro campos. uno de los nombres de campo es Estado y estoy tratando de usar una condición OR en .filter para un marco de datos. Intenté debajo de las consultas pero no tuve suerte. df2 = df1.filter(("Status=2") || ...
SQLContext implicits
Estoy aprendiendo chispa y scala. Estoy bien versado en Java, pero no tanto en Scala. Estoy revisando un tutorial sobre spark, y encontré la siguiente línea de código, que no se ha explicado: val sqlContext = new ...
¿Cómo detecto si un Spark DataFrame tiene una columna?
Cuando creo unDataFrame desde un archivo JSON en Spark SQL, ¿cómo puedo saber si existe una columna determinada antes de llamar.select Ejemplo de esquema JSON: { "a": { "b": 1, "c": 2 } }Esto es lo que quiero hacer: potential_columns = ...
Hacer que las características de los datos de prueba sean iguales a los datos del tren después de la selección de características en chispa
Estoy trabajando en Scala. Tengo una gran pregunta, ChiSqSelector parece reducir la dimensión con éxito, pero no puedo identificar qué características se redujeron y qué quedaron. ¿Cómo puedo saber qué funciones se redujeron? [WrappedArray(a, b, ...
Trabajo Spark con llamada HTTP asíncrona
Construyo un RDD a partir de una lista de URL, y luego trato de obtener datos con alguna llamada http asíncrona. Necesito todos los resultados antes de hacer otros cálculos. Idealmente, necesito hacer las llamadas http en diferentes nodos para ...
Agregar columna a PySpark DataFrame dependiendo de si el valor de la columna está en otra columna
Tengo un PySpark DataFrame con estructura dada por [('u1', 1, [1 ,2, 3]), ('u1', 4, [1, 2, 3])].toDF('user', 'item', 'fav_items') Necesito agregar una columna más con 1 o 0 dependiendo de si 'item' está en 'fav_items' o no. Entonces yo ...
Unirse a un marco de datos de chispa grande y descomunal
Tengo dos marcos de datos, df1 tiene 6 millones de filas, df2 tiene mil millones. He probado el estándardf1.join(df2,df1("id")<=>df2("id2")), pero se queda sin memoria. df1 es demasiado grande para colocarlo en una unión de difusión. Incluso ...
Apache Spark en Mesos: el trabajo inicial no ha aceptado ningún recurso
Estoy ejecutando Apache Spark en modo de clúster usando Apache Mesos. Pero, cuando inicio Spark-Shell para ejecutar un comando de prueba simple (sc.parallelize (0 a 10, 8) .count) recibo el siguiente mensaje de advertencia: 16/03/10 11:50:55 ...
¿Cómo paso el argumento del programa a la función principal al ejecutar spark-submit con un JAR?
Sé que esta es una pregunta trivial, pero no pude encontrar la respuesta en Internet. Estoy tratando de ejecutar una clase Java con elmain funcionar con argumentos de programa (String[] args) Sin embargo, cuando envío el trabajo ...
Pyspark: relleno hacia adelante con la última observación para un DataFrame
Usando Spark 1.5.1, He estado tratando de reenviar el rellenovalores nuloscon la última observación conocida parauna columnade mi DataFrame. Es posible comenzar con un valor nulo y, en este caso, rellenaría este valor nulo con la primera ...