Resultados de la búsqueda a petición "apache-spark"
Cómo seleccionar y ordenar múltiples columnas en un Pyspark Dataframe después de una unión
Quiero seleccionar varias columnas del marco de datos existente (que se crea después de las uniones) y me gustaría ordenar los fileds como mi estructura de tabla de destino. Cómo puede hacerse esto ? El acercamiento que he usado está abajo. Aquí ...
¿Cómo usar Column.isin en Java?
Estoy tratando de filtrar un Spark DataFrame usando una lista en Java. java.util.List<Long> selected = ....; DataFrame result = df.filter(df.col("something").isin(????));El problema es eseisin(...) método acepta ScalaSeq o ...
¿Por qué falla el uso de caché en conjuntos de datos de transmisión con "AnalysisException: las consultas con fuentes de transmisión deben ejecutarse con writeStream.start ()"?
SparkSession .builder .master("local[*]") .config("spark.sql.warehouse.dir", "C:/tmp/spark") .config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint") .appName("my-test") .getOrCreate .readStream .schema(schema) ...
establecer spark.streaming.kafka.maxRatePerPartition para createDirectStream
Necesito aumentar la velocidad de entrada por partición para mi aplicación y tengo uso.set("spark.streaming.kafka.maxRatePerPartition",100) para la config. La duración de la transmisión es de 10 s, por lo que espero un proceso5*100*10=5000 ...
Particionamiento inesperado de Spark HashPartitioner
estoy usandoHashPartioner pero obteniendo un resultado inesperado. Estoy usando 3 cadenas diferentes como claves, y estoy dando el parámetro de partición como 3, por lo que espero 3 particiones. val cars = Array("Honda", "Toyota", "Kia") val ...
Spark 2 Dataset Excepción de valor nulo
Obteniendo este error nulo en spark Dataset.filter Entrada CSV: name,age,stat abc,22,m xyz,,sCódigo de trabajo: case class Person(name: String, age: Long, stat: String) val peopleDS = spark.read.option("inferSchema","true") ...
Método de error de lanzamiento de PySpark __getnewargs __ ([]) no existe
Tengo un conjunto de archivos. La ruta a los archivos se guarda en un archivo., Diga "all_files.txt". Usando apache spark, necesito hacer una operación en todos los archivos y agrupar los resultados. Los pasos que quiero hacer son: Cree un RDD ...
Spark: saveAsTextFile sin compresión
Por defecto, las versiones más nuevas de Spark usan compresión al guardar archivos de texto. Por ejemplo: val txt = sc.parallelize(List("Hello", "world", "!")) txt.saveAsTextFile("/path/to/output")creará archivos en.deflate formato. Es bastante ...
¿Cuáles son las posibles razones para recibir TimeoutException ?: Futures expiró después de [n segundos] al trabajar con Spark [duplicar]
Esta pregunta ya tiene una respuesta aquí: ¿Por qué falla la unión con "java.util.concurrent.TimeoutException: Futures expiró después de [300 ...
PCA en Spark MLlib y Spark ML
Spark ahora tiene dos bibliotecas de aprendizaje automático: Spark MLlib y Spark ML. Se superponen un poco en lo que se implementa, pero según tengo entendido (como una persona nueva en todo el ecosistema de Spark) Spark ML es el camino a seguir ...