Resultados de la búsqueda a petición "apache-spark"

Tengo un marco de datosdf que tienen la siguiente estructura: +-----+-----+-----+-------+ | s |col_1|col_2|col_...| +-----+-------------------+ | f1 | 0.0| 0.6| ... | | f2 | 0.6| 0.7| ... | | f3 | 0.5| 0.9| ... | | ...| ...| ...| ... |Y quiero ...

sql apache-spark-sql pyspark-sql

1 la respuesta

Cadena de conversión de Spark SQL a marca de tiempo

Soy nuevo en Spark SQL y estoy tratando de convertir una cadena en una marca de tiempo en un marco de datos de chispa. Tengo una cuerda que parece'2017-08-01T02:26:59.000Z' en una columna llamada time_string Mi código para convertir esta cadena ...

scala spark-dataframe avro

4 la respuesta

¿Cómo convertir RDD [GenericRecord] a dataframe en scala?

Recibo tweets del tema kafka con Avro (serializador y deserializador). Luego creo un consumidor de chispas que extrae tweets en Dstream de RDD [GenericRecord]. Ahora quiero convertir cada rdd en un marco de datos para analizar estos tweets a ...

apache-spark-sql pyspark

2 la respuesta

¿Cómo hacer lo contrario de explotar en PySpark?

Digamos que tengo unDataFrame con una columna para usuarios y otra columna para palabras que han escrito: Row(user='Bob', word='hello') Row(user='Bob', word='world') Row(user='Mary', word='Have') Row(user='Mary', word='a') Row(user='Mary', ...

java spark-structured-streaming

1 la respuesta

Excepción de transmisión estructurada cuando se utiliza el modo de salida anexa con marca de agua

A pesar de que estoy usandowithWatermark(), Recibo el siguiente mensaje de error cuando ejecuto mi trabajo de chispa: Excepción en el subproceso "main" org.apache.spark.sql.AnalysisException: el modo de salida de anexos no es compatible cuando ...

scala maven intellij-idea apache-spark-sql

1 la respuesta

Error: scalac: mala referencia simbólica. Una firma en SQLContext.class se refiere al tipo Logging en el paquete org.apache.spark que no está disponible

Cuando cumplí con un archivo scala utilizado IntelliJ IDEA, se mostró el siguiente error. Error: scalac: mala referencia simbólica. Una firma en SQLContext.class se refiere al tipo Logging en el paquete org.apache.spark que no está ...

sql apache-spark-sql

2 la respuesta

¿Cómo agregar datos en rangos (bucketize)?

Tengo una mesa como +---------------+------+ |id | value| +---------------+------+ | 1|118.0| | 2|109.0| | 3|113.0| | 4| 82.0| | 5| 60.0| | 6|111.0| | 7|107.0| | 8| 84.0| | 9| 91.0| | 10|118.0| +---------------+------+ans desea agregar o bin los ...

distributed-computing distributed cross-correlation algorithm

1 la respuesta

Cálculo distribuido de matriz de correlación cruzada

¿Cómo puedo calcular la matriz de correlación cruzada de Pearson de un conjunto de datos grande (> 10 TB), posiblemente de manera distribuida? Cualquier sugerencia de algoritmo distribuido eficiente será apreciada. actualización: leí la ...

hadoop hive

1 la respuesta

Spark sin Hadoop: no se pudo iniciar

Estoy ejecutando Spark 2.1.0, Hive 2.1.1 y Hadoop 2.7.3 en Ubuntu 16.04. Descargo el proyecto Spark de github y construyo la versión "sin hadoop": ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn, proporcionado por hadoop, ...

hadoop spark-cassandra-connector google-cloud-dataproc

1 la respuesta

Cómo resolver el problema de dependencia de Guava al enviar Uber Jar a Google Dataproc

Estoy usando el complemento de sombra maven para compilar Uber jar para enviarlo como un trabajo al clúster de google dataproc. Google ha instalado Apache Spark 2.0.2 Apache Hadoop 2.7.3 en su clúster. Apache spark 2.0.2 usa 14.0.1 de ...

Página 51 de 165

49 505152 53

Resultados de la búsqueda a petición "apache-spark"

Transposición de trama de datos con pyspark en Apache Spark

Cadena de conversión de Spark SQL a marca de tiempo

¿Cómo convertir RDD [GenericRecord] a dataframe en scala?

Etiquetas Populares

¿Cómo hacer lo contrario de explotar en PySpark?

Excepción de transmisión estructurada cuando se utiliza el modo de salida anexa con marca de agua

Error: scalac: mala referencia simbólica. Una firma en SQLContext.class se refiere al tipo Logging en el paquete org.apache.spark que no está disponible

¿Cómo agregar datos en rangos (bucketize)?

Cálculo distribuido de matriz de correlación cruzada

Spark sin Hadoop: no se pudo iniciar

Cómo resolver el problema de dependencia de Guava al enviar Uber Jar a Google Dataproc

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares