Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

¿Podemos utilizar múltiples sesiones de chispas para acceder a dos servidores de Hive diferentes?

Tengo un escenario para comparar dos tablas diferentes de origen y destino de dos servidores remotos separados, ¿podemos usar dos?SparkSessions algo como lo intenté a continuación: - val spark = SparkSession.builder().master("local") ...

3 la respuesta

¿Cómo obtener compensaciones de Kafka para una consulta estructurada para una gestión de compensación manual y confiable?

Spark 2.2 introdujo una fuente de transmisión estructurada de Kafka. Según tengo entendido, se basa en el directorio de puntos de control HDFS para almacenar compensaciones y garantizar la entrega de un mensaje "exactamente una vez". Pero viejos ...

1 la respuesta

convertir cadena con nanosegundos en marca de tiempo en chispa

¿Hay alguna manera de convertir un valor de marca de tiempo con nano segundos a marca de tiempo en chispa? Recibo la entrada de un archivo csv y el valor de la marca de tiempo es de formato12-12-2015 14:09:36.992415+01:00. Este es el código que ...

2 la respuesta

¿Cómo convertir un DataFrame simple en un DataSet Spark Scala con clase de caso?

Estoy tratando de convertir un DataFrame simple en un DataSet del ejemplo en Spark:https://spark.apache.org/docs/latest/sql-programming-guide.html [https://spark.apache.org/docs/latest/sql-programming-guide.html] case class Person(name: String, ...

4 la respuesta

obtener el tipo de datos de la columna usando pyspark

Estamos leyendo datos de MongoDBCollection. Collection La columna tiene dos valores diferentes (por ejemplo:(bson.Int64,int) (int,float) ) Estoy tratando de obtener un tipo de datos usando pyspark. Mi problema es que algunas columnas tienen un ...

1 la respuesta

Uso de UDF de Spark con secuencias de estructura

Dado un marco de datos en el que una columna es una secuencia de estructuras generadas por la siguiente secuencia val df = spark .range(10) .map((i) => (i % 2, util.Random.nextInt(10), util.Random.nextInt(10))) .toDF("a","b","c") ...

1 la respuesta

Error al pasar datos de un Dataframe a un ML VectorIndexerModel existente

Tengo un Dataframe que quiero usar para la predicción con un modelo existente. Recibo un error cuando uso el método de transformación de mi modelo. Así es como proceso los datos de entrenamiento. forecast.printSchema()El esquema de mi ...

3 la respuesta

Mediana / cuantiles dentro del grupo PySpark

Me gustaría calcular cuantiles grupales en un marco de datos Spark (usando PySpark). Un resultado aproximado o exacto estaría bien. Prefiero una solución que pueda usar dentro del contexto degroupBy / agg, para poder mezclarlo con otras funciones ...

2 la respuesta

la agrupación de trama de datos de chispa no cuenta nulos

Tengo un DataFrame de chispa que se agrupa por una columna agregada con un recuento: df.groupBy('a').agg(count("a")).show +---------+----------------+ |a |count(a) | +---------+----------------+ | null| 0| | -90| ...

1 la respuesta

Spark UDAF con ArrayType como problemas de rendimiento de bufferSchema

Estoy trabajando en un UDAF que devuelve una variedad de elementos. La entrada para cada actualización es una tupla de índice y valor. Lo que hace el UDAF es sumar todos los valores bajo el mismo índice. Ejemplo: Para entrada (índice, valor): ...