Resultados de la búsqueda a petición "apache-spark"
Trabajando con jdbc jar en pyspark
Necesito leer de una base de datos sql de postgres en pyspark. Sé que esto se ha preguntado antes, comoaquí [https://stackoverflow.com/questions/29669420/not-able-to-connect-to-postgres-using-jdbc-in-pyspark-shell] , ...
Almacenamiento en caché en Spark
Se define una función para transformar un RDD. Por lo tanto, la función se llama una vez para cada elemento en el RDD. La función necesita llamar a un servicio web externo para buscar datos de referencia, pasando como datos de parámetros del ...
Encuentre el mínimo para una marca de tiempo a través del grupo Spark.
Cuando intento agrupar mi marco de datos en una columna, trato de encontrar el mínimo para cada agrupacióngroupbyDatafram.min('timestampCol') parece que no puedo hacerlo en columnas no numéricas. Entonces, ¿cómo puedo filtrar correctamente la ...
Esta transmisión por chispa funciona tanto con "cp" como con "mv"
Estoy usando la transmisión por chispa Mi programa lee continuamente secuencias de una carpeta de hadoop. El problema es que si copio a mi carpeta de hadoop (hadoop fs -copyFromLocal), el trabajo inicial comienza pero si me muevo (hadoop fs -mv ...
Scala-Spark Llama dinámicamente groupby y agg con valores de parámetros
Quiero escribir una función de agrupación y agregación personalizada para obtener los nombres de columna especificados por el usuario y el mapa de agregación especificado por el usuario.No sé los nombres de columna y el mapa de agregación por ...
Leer archivos de texto completos desde una compresión en Spark
Tengo el siguiente problema: suponga que tengo un directorio que contiene directorios comprimidos que contienen múltiples archivos, almacenados en HDFS. Quiero crear un RDD que consista en algunos objetos de tipo T, es decir: context = new ...
Generar un Spark StructType / Schema a partir de una clase de caso
Si quisiera crear unStructType (es decir, unDataFrame.schema) de uncase class, ¿hay alguna manera de hacerlo sin crear unDataFrame? Puedo hacer fácilmente: case class TestCase(id: Long) val schema = Seq[TestCase]().toDF.schemaPero parece ...
¿Cómo asignar y usar encabezados de columna en Spark?
Estoy leyendo un conjunto de datos como a continuación. f = sc.textFile("s3://test/abc.csv")Mi archivo contiene más de 50 campos y quiero asignar encabezados de columna a cada uno de los campos para hacer referencia más adelante en mi secuencia ...
MC-Stan en Spark?
Espero usarMC-Stan [http://mc-stan.org/]enChispa - chispear [http://spark.apache.org/], pero parece que Google no busca ninguna página relacionada. Me pregunto si este enfoque es incluso posible en Spark, por lo tanto, agradecería que alguien me ...
¿Cómo usar las funciones proporcionadas por la clase DataFrameNaFunctions en Spark, en un Dataframe?
Tengo un marco de datos y quiero usar uno de losreemplazar()funcion de org.apache.spark.sql.DataFrameNaFunctionsen ese marco de datos. Problema:No obtengo estos métodos en inteligencia (sugerencias) con la instancia del marco de datos. Importé ...