Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Transposición de trama de datos con pyspark en Apache Spark

Tengo un marco de datosdf que tienen la siguiente estructura: +-----+-----+-----+-------+ | s |col_1|col_2|col_...| +-----+-------------------+ | f1 | 0.0| 0.6| ... | | f2 | 0.6| 0.7| ... | | f3 | 0.5| 0.9| ... | | ...| ...| ...| ... |Y quiero ...

1 la respuesta

Cadena de conversión de Spark SQL a marca de tiempo

Soy nuevo en Spark SQL y estoy tratando de convertir una cadena en una marca de tiempo en un marco de datos de chispa. Tengo una cuerda que parece'2017-08-01T02:26:59.000Z' en una columna llamada time_string Mi código para convertir esta cadena ...

4 la respuesta

¿Cómo convertir RDD [GenericRecord] a dataframe en scala?

Recibo tweets del tema kafka con Avro (serializador y deserializador). Luego creo un consumidor de chispas que extrae tweets en Dstream de RDD [GenericRecord]. Ahora quiero convertir cada rdd en un marco de datos para analizar estos tweets a ...

2 la respuesta

¿Cómo hacer lo contrario de explotar en PySpark?

Digamos que tengo unDataFrame con una columna para usuarios y otra columna para palabras que han escrito: Row(user='Bob', word='hello') Row(user='Bob', word='world') Row(user='Mary', word='Have') Row(user='Mary', word='a') Row(user='Mary', ...

1 la respuesta

Excepción de transmisión estructurada cuando se utiliza el modo de salida anexa con marca de agua

A pesar de que estoy usandowithWatermark(), Recibo el siguiente mensaje de error cuando ejecuto mi trabajo de chispa: Excepción en el subproceso "main" org.apache.spark.sql.AnalysisException: el modo de salida de anexos no es compatible cuando ...

1 la respuesta

Error: scalac: mala referencia simbólica. Una firma en SQLContext.class se refiere al tipo Logging en el paquete org.apache.spark que no está disponible

Cuando cumplí con un archivo scala utilizado IntelliJ IDEA, se mostró el siguiente error. Error: scalac: mala referencia simbólica. Una firma en SQLContext.class se refiere al tipo Logging en el paquete org.apache.spark que no está ...

2 la respuesta

¿Cómo agregar datos en rangos (bucketize)?

Tengo una mesa como +---------------+------+ |id | value| +---------------+------+ | 1|118.0| | 2|109.0| | 3|113.0| | 4| 82.0| | 5| 60.0| | 6|111.0| | 7|107.0| | 8| 84.0| | 9| 91.0| | 10|118.0| +---------------+------+ans desea agregar o bin los ...

1 la respuesta

Cálculo distribuido de matriz de correlación cruzada

¿Cómo puedo calcular la matriz de correlación cruzada de Pearson de un conjunto de datos grande (> 10 TB), posiblemente de manera distribuida? Cualquier sugerencia de algoritmo distribuido eficiente será apreciada. actualización: leí la ...

1 la respuesta

Spark sin Hadoop: no se pudo iniciar

Estoy ejecutando Spark 2.1.0, Hive 2.1.1 y Hadoop 2.7.3 en Ubuntu 16.04. Descargo el proyecto Spark de github y construyo la versión "sin hadoop": ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn, proporcionado por hadoop, ...

1 la respuesta

Cómo resolver el problema de dependencia de Guava al enviar Uber Jar a Google Dataproc

Estoy usando el complemento de sombra maven para compilar Uber jar para enviarlo como un trabajo al clúster de google dataproc. Google ha instalado Apache Spark 2.0.2 Apache Hadoop 2.7.3 en su clúster. Apache spark 2.0.2 usa 14.0.1 de ...