Resultados de la búsqueda a petición "apache-spark"

4 la respuesta

Leer y escribir datos en cassandra usando apache flink Java API

Tengo la intención de usar Apache Flink para leer / escribir datos en Cassandra usando Flink. Esperaba usarflink-connector-cassandra [https://github.com/apache/flink/tree/master/flink-connectors/flink-connector-cassandra] , No encuentro buena ...

2 la respuesta

la agrupación de trama de datos de chispa no cuenta nulos

Tengo un DataFrame de chispa que se agrupa por una columna agregada con un recuento: df.groupBy('a').agg(count("a")).show +---------+----------------+ |a |count(a) | +---------+----------------+ | null| 0| | -90| ...

1 la respuesta

Spark UDAF con ArrayType como problemas de rendimiento de bufferSchema

Estoy trabajando en un UDAF que devuelve una variedad de elementos. La entrada para cada actualización es una tupla de índice y valor. Lo que hace el UDAF es sumar todos los valores bajo el mismo índice. Ejemplo: Para entrada (índice, valor): ...

1 la respuesta

¿Cómo usar las funciones collect_set y collect_list en la agregación en ventana en Spark 1.6?

En Spark 1.6.0 / Scala, ¿hay una oportunidad para obtenercollect_list("colC") ocollect_set("colC").over(Window.partitionBy("colA").orderBy("colB")?

2 la respuesta

¿Cómo crear el proyecto Spark / Scala en IntelliJ IDEA (no puede resolver las dependencias en build.sbt)?

Estoy tratando de construir y ejecutar un proyecto Scala / Spark en IntelliJ IDEA. Yo he añadidoorg.apache.spark:spark-sql_2.11:2.0.0 en bibliotecas globales y mibuild.sbt se ve a continuación. name := "test" version := "1.0" scalaVersion := ...

2 la respuesta

Cree un mapa para llamar al POJO para cada fila de Spark Dataframe

Construí un modelo H2O en R y guardé el código POJO. Quiero puntuar archivos de parquet en hdfs usando el POJO pero no estoy seguro de cómo hacerlo. Planeo leer los archivos de parquet en chispa (scala / SparkR / PySpark) y marcarlos allí. ...

1 la respuesta

Tipo de tiempo int96 de Spark

Cuando crea una columna de marca de tiempo en spark y la guarda en parquet, obtiene un tipo de columna de entero de 12 bytes (int96); Supongo que los datos se dividen en 6 bytes para el día juliano y 6 bytes para nanosegundos dentro ...

1 la respuesta

Cómo filtrar en una coincidencia parcial con sparklyr

Soy nuevo en sparklyr (pero estoy familiarizado con spark y pyspark), y tengo una pregunta muy básica. Estoy tratando de filtrar una columna en función de una coincidencia parcial. En dplyr, escribiría mi operación así: businesses %>% ...

1 la respuesta

¿Cómo leer registros en formato JSON de Kafka usando Structured Streaming?

Estoy tratando de usarenfoque de transmisión estructurada [http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html] usando Spark-Streaming basado en DataFrame / Dataset API para cargar un flujo de datos desde Kafka. Yo ...

1 la respuesta

Spark filter DataFrame comparando la lista

Estoy usando Python en Spark. Quiero filtrar filas donde un campo específico es igual a una lista completa. df.show() +--------------------+---------------+ | _id| a1| +--------------------+---------------+ |[596d799cbc6ec95d...|[1.0, 2.0, ...