Resultados de la búsqueda a petición "apache-spark"

4 la respuesta

Múltiples condiciones para el filtro en marcos de datos de chispa

Tengo un marco de datos con cuatro campos. uno de los nombres de campo es Estado y estoy tratando de usar una condición OR en .filter para un marco de datos. Intenté debajo de las consultas pero no tuve suerte. df2 = df1.filter(("Status=2") || ...

1 la respuesta

SQLContext implicits

Estoy aprendiendo chispa y scala. Estoy bien versado en Java, pero no tanto en Scala. Estoy revisando un tutorial sobre spark, y encontré la siguiente línea de código, que no se ha explicado: val sqlContext = new ...

5 la respuesta

¿Cómo detecto si un Spark DataFrame tiene una columna?

Cuando creo unDataFrame desde un archivo JSON en Spark SQL, ¿cómo puedo saber si existe una columna determinada antes de llamar.select Ejemplo de esquema JSON: { "a": { "b": 1, "c": 2 } }Esto es lo que quiero hacer: potential_columns = ...

1 la respuesta

Hacer que las características de los datos de prueba sean iguales a los datos del tren después de la selección de características en chispa

Estoy trabajando en Scala. Tengo una gran pregunta, ChiSqSelector parece reducir la dimensión con éxito, pero no puedo identificar qué características se redujeron y qué quedaron. ¿Cómo puedo saber qué funciones se redujeron? [WrappedArray(a, b, ...

4 la respuesta

Trabajo Spark con llamada HTTP asíncrona

Construyo un RDD a partir de una lista de URL, y luego trato de obtener datos con alguna llamada http asíncrona. Necesito todos los resultados antes de hacer otros cálculos. Idealmente, necesito hacer las llamadas http en diferentes nodos para ...

2 la respuesta

Agregar columna a PySpark DataFrame dependiendo de si el valor de la columna está en otra columna

Tengo un PySpark DataFrame con estructura dada por [('u1', 1, [1 ,2, 3]), ('u1', 4, [1, 2, 3])].toDF('user', 'item', 'fav_items') Necesito agregar una columna más con 1 o 0 dependiendo de si 'item' está en 'fav_items' o no. Entonces yo ...

2 la respuesta

Unirse a un marco de datos de chispa grande y descomunal

Tengo dos marcos de datos, df1 tiene 6 millones de filas, df2 tiene mil millones. He probado el estándardf1.join(df2,df1("id")<=>df2("id2")), pero se queda sin memoria. df1 es demasiado grande para colocarlo en una unión de difusión. Incluso ...

1 la respuesta

Apache Spark en Mesos: el trabajo inicial no ha aceptado ningún recurso

Estoy ejecutando Apache Spark en modo de clúster usando Apache Mesos. Pero, cuando inicio Spark-Shell para ejecutar un comando de prueba simple (sc.parallelize (0 a 10, 8) .count) recibo el siguiente mensaje de advertencia: 16/03/10 11:50:55 ...

3 la respuesta

¿Cómo paso el argumento del programa a la función principal al ejecutar spark-submit con un JAR?

Sé que esta es una pregunta trivial, pero no pude encontrar la respuesta en Internet. Estoy tratando de ejecutar una clase Java con elmain funcionar con argumentos de programa (String[] args) Sin embargo, cuando envío el trabajo ...

3 la respuesta

Pyspark: relleno hacia adelante con la última observación para un DataFrame

Usando Spark 1.5.1, He estado tratando de reenviar el rellenovalores nuloscon la última observación conocida parauna columnade mi DataFrame. Es posible comenzar con un valor nulo y, en este caso, rellenaría este valor nulo con la primera ...