Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Cómo seleccionar y ordenar múltiples columnas en un Pyspark Dataframe después de una unión

Quiero seleccionar varias columnas del marco de datos existente (que se crea después de las uniones) y me gustaría ordenar los fileds como mi estructura de tabla de destino. Cómo puede hacerse esto ? El acercamiento que he usado está abajo. Aquí ...

1 la respuesta

¿Cómo usar Column.isin en Java?

Estoy tratando de filtrar un Spark DataFrame usando una lista en Java. java.util.List<Long> selected = ....; DataFrame result = df.filter(df.col("something").isin(????));El problema es eseisin(...) método acepta ScalaSeq o ...

1 la respuesta

¿Por qué falla el uso de caché en conjuntos de datos de transmisión con "AnalysisException: las consultas con fuentes de transmisión deben ejecutarse con writeStream.start ()"?

SparkSession .builder .master("local[*]") .config("spark.sql.warehouse.dir", "C:/tmp/spark") .config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint") .appName("my-test") .getOrCreate .readStream .schema(schema) ...

1 la respuesta

establecer spark.streaming.kafka.maxRatePerPartition para createDirectStream

Necesito aumentar la velocidad de entrada por partición para mi aplicación y tengo uso.set("spark.streaming.kafka.maxRatePerPartition",100) para la config. La duración de la transmisión es de 10 s, por lo que espero un proceso5*100*10=5000 ...

1 la respuesta

Particionamiento inesperado de Spark HashPartitioner

estoy usandoHashPartioner pero obteniendo un resultado inesperado. Estoy usando 3 cadenas diferentes como claves, y estoy dando el parámetro de partición como 3, por lo que espero 3 particiones. val cars = Array("Honda", "Toyota", "Kia") val ...

1 la respuesta

Spark 2 Dataset Excepción de valor nulo

Obteniendo este error nulo en spark Dataset.filter Entrada CSV: name,age,stat abc,22,m xyz,,sCódigo de trabajo: case class Person(name: String, age: Long, stat: String) val peopleDS = spark.read.option("inferSchema","true") ...

1 la respuesta

Método de error de lanzamiento de PySpark __getnewargs __ ([]) no existe

Tengo un conjunto de archivos. La ruta a los archivos se guarda en un archivo., Diga "all_files.txt". Usando apache spark, necesito hacer una operación en todos los archivos y agrupar los resultados. Los pasos que quiero hacer son: Cree un RDD ...

1 la respuesta

Spark: saveAsTextFile sin compresión

Por defecto, las versiones más nuevas de Spark usan compresión al guardar archivos de texto. Por ejemplo: val txt = sc.parallelize(List("Hello", "world", "!")) txt.saveAsTextFile("/path/to/output")creará archivos en.deflate formato. Es bastante ...

4 la respuesta

¿Cuáles son las posibles razones para recibir TimeoutException ?: Futures expiró después de [n segundos] al trabajar con Spark [duplicar]

Esta pregunta ya tiene una respuesta aquí: ¿Por qué falla la unión con "java.util.concurrent.TimeoutException: Futures expiró después de [300 ...

1 la respuesta

PCA en Spark MLlib y Spark ML

Spark ahora tiene dos bibliotecas de aprendizaje automático: Spark MLlib y Spark ML. Se superponen un poco en lo que se implementa, pero según tengo entendido (como una persona nueva en todo el ecosistema de Spark) Spark ML es el camino a seguir ...