Resultados de la búsqueda a petición "apache-spark"

4 la respuesta

Cómo convertir la lista a JavaRDD

Sabemos que en spark hay un método rdd.collect que convierte RDD en una lista. List<String> f= rdd.collect(); String[] array = f.toArray(new String[f.size()]); Estoy tratando de hacer exactamente lo contrario en mi proyecto. Tengo una ArrayList ...

1 la respuesta

Columna GroupBy y filas de filtro con valor máximo en Pyspark

Estoy casi seguro de que esto se ha preguntado antes, perouna búsqueda a través de ...

1 la respuesta

¿Cómo usar UDF para devolver múltiples columnas?

¿Es posible crear un UDF que devuelva el conjunto de columnas? Es decir. teniendo un marco de datos de la siguiente manera: | Feature1 | Feature2 | Feature 3 | | 1.3 | 3.4 | 4.5 |Ahora me gustaría extraer una nueva característica, que puede ...

3 la respuesta

¿Cómo usar TwitterUtils en Spark Shell?

Estoy tratando de usar twitterUtils en Spark Shell (donde no están disponibles de forma predeterminada). He agregado lo siguiente ...

2 la respuesta

¿Cómo usar el modo de salida de actualización con formato FileFormat?

Estoy tratando de usar la transmisión estructurada por chispa en el modo de salida de actualización escribir en un archivo. encontréeste ejemplo ...

1 la respuesta

¿Cómo transformar DataFrame antes de unirse a la operación?

El siguiente código se usa para extraer rangos de la columnaproducts. Los rangos son segundos números en cada par[...]. Por ejemplo, en el ejemplo dado[[222,66],[333,55]] los rangos son66 y55 para productos con PK222 y333, en consecuencia. Pero ...

13 la respuesta

¿Cómo desactivar el inicio de sesión INFO en Spark?

Instalé Spark usando la guía AWS EC2 y puedo iniciar bien el programa usando elbin/pyspark secuencia de comandos para llegar al indicador de chispa y también puede hacer el inicio rápido rápidamente. Sin embargo, no puedo por mi vida descubrir ...

5 la respuesta

¿Cómo instalo pyspark para usarlo en scripts independientes?

Estoy tratando de usar Spark con Python. Instalé Spark 1.0.2 para la distribución binaria de Hadoop 2 desde eldescargas [https://spark.apache.org/downloads.html]página. Puedo ver los ejemplos de inicio rápido en el modo interactivo de Python, ...

5 la respuesta

Error de DEPENDENCIAS NO RESUELTAS al intentar crear jar

Estoy tratando de construir un archivo jar Scala para ejecutarlo en spark. Estoy siguiendo estotutorial [http://spark.apache.org/docs/latest/quick-start.html]. al intentar construir un archivo jar usando sbt ...

1 la respuesta

Escribir en HBase a través de Spark: tarea no serializable

Estoy tratando de escribir algunos datos simples en HBase (0.96.0-hadoop2) usando Spark 1.0 pero sigo teniendo problemas de serialización. Aquí está el código relevante: import org.apache.hadoop.hbase.client._ ...