Resultados de la búsqueda a petición "apache-spark"
Transposición de trama de datos con pyspark en Apache Spark
Tengo un marco de datosdf que tienen la siguiente estructura: +-----+-----+-----+-------+ | s |col_1|col_2|col_...| +-----+-------------------+ | f1 | 0.0| 0.6| ... | | f2 | 0.6| 0.7| ... | | f3 | 0.5| 0.9| ... | | ...| ...| ...| ... |Y quiero ...
Cadena de conversión de Spark SQL a marca de tiempo
Soy nuevo en Spark SQL y estoy tratando de convertir una cadena en una marca de tiempo en un marco de datos de chispa. Tengo una cuerda que parece'2017-08-01T02:26:59.000Z' en una columna llamada time_string Mi código para convertir esta cadena ...
¿Cómo convertir RDD [GenericRecord] a dataframe en scala?
Recibo tweets del tema kafka con Avro (serializador y deserializador). Luego creo un consumidor de chispas que extrae tweets en Dstream de RDD [GenericRecord]. Ahora quiero convertir cada rdd en un marco de datos para analizar estos tweets a ...
¿Cómo hacer lo contrario de explotar en PySpark?
Digamos que tengo unDataFrame con una columna para usuarios y otra columna para palabras que han escrito: Row(user='Bob', word='hello') Row(user='Bob', word='world') Row(user='Mary', word='Have') Row(user='Mary', word='a') Row(user='Mary', ...
Excepción de transmisión estructurada cuando se utiliza el modo de salida anexa con marca de agua
A pesar de que estoy usandowithWatermark(), Recibo el siguiente mensaje de error cuando ejecuto mi trabajo de chispa: Excepción en el subproceso "main" org.apache.spark.sql.AnalysisException: el modo de salida de anexos no es compatible cuando ...
Error: scalac: mala referencia simbólica. Una firma en SQLContext.class se refiere al tipo Logging en el paquete org.apache.spark que no está disponible
Cuando cumplí con un archivo scala utilizado IntelliJ IDEA, se mostró el siguiente error. Error: scalac: mala referencia simbólica. Una firma en SQLContext.class se refiere al tipo Logging en el paquete org.apache.spark que no está ...
¿Cómo agregar datos en rangos (bucketize)?
Tengo una mesa como +---------------+------+ |id | value| +---------------+------+ | 1|118.0| | 2|109.0| | 3|113.0| | 4| 82.0| | 5| 60.0| | 6|111.0| | 7|107.0| | 8| 84.0| | 9| 91.0| | 10|118.0| +---------------+------+ans desea agregar o bin los ...
Cálculo distribuido de matriz de correlación cruzada
¿Cómo puedo calcular la matriz de correlación cruzada de Pearson de un conjunto de datos grande (> 10 TB), posiblemente de manera distribuida? Cualquier sugerencia de algoritmo distribuido eficiente será apreciada. actualización: leí la ...
Spark sin Hadoop: no se pudo iniciar
Estoy ejecutando Spark 2.1.0, Hive 2.1.1 y Hadoop 2.7.3 en Ubuntu 16.04. Descargo el proyecto Spark de github y construyo la versión "sin hadoop": ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn, proporcionado por hadoop, ...
Cómo resolver el problema de dependencia de Guava al enviar Uber Jar a Google Dataproc
Estoy usando el complemento de sombra maven para compilar Uber jar para enviarlo como un trabajo al clúster de google dataproc. Google ha instalado Apache Spark 2.0.2 Apache Hadoop 2.7.3 en su clúster. Apache spark 2.0.2 usa 14.0.1 de ...