Resultados de la búsqueda a petición "apache-spark"
Pase columnNames dinámicamente a cassandraTable (). Select ()
Estoy leyendo la consulta de un archivo en tiempo de ejecución y ejecutándola en el entorno SPark + Cassandra. Estoy ejecutando: sparkContext.cassandraTable.("keyspaceName", "colFamilyName").select("col1", "col2", "col3").where("some condition = ...
Replicar la fila de chispas N veces
Quiero duplicar una fila en un DataFrame, ¿cómo puedo hacer eso? Por ejemplo, tengo un DataFrame que consta de 1 fila, y quiero hacer un DataFrame con 100 filas idénticas. Se me ocurrió la siguiente solución: var data:DataFrame=singleRowDF ...
¿Cuál es la diferencia entre las funciones sort y orderBy en Spark?
¿Cuál es la diferencia entre sort y orderBy spark DataFrame? scala> zips.printSchema root |-- _id: string (nullable = true) |-- city: string (nullable = true) |-- loc: array (nullable = true) | |-- element: double (containsNull = true) |-- pop: ...
Cómo obtener claves y valores de la columna MapType en SparkSQL DataFrame
Tengo datos en un archivo de parquet que tiene 2 campos:object_id: String yalpha: Map<>. Se lee en un marco de datos en sparkSQL y el esquema se ve así: scala> alphaDF.printSchema() root |-- object_id: string (nullable = true) |-- ALPHA: map ...
¿Por qué las columnas cambian a nulables en Apache Spark SQL?
Por que esnullable = true se usa después de ejecutar algunas funciones, aunque no haya valores NaN enDataFrame. val myDf = Seq((2,"A"),(2,"B"),(1,"C")) .toDF("foo","bar") .withColumn("foo", 'foo.cast("Int")) myDf.withColumn("foo_2", when($"foo" ...
Conexión a un maestro remoto de Spark - Java / Scala
Creé un nodo 3 (1 maestro, 2 trabajadores)Apache Spark clúster en AWS. Puedo enviar trabajos al clúster desde el maestro, sin embargo, no puedo hacer que funcione de forma remota. /* SimpleApp.scala */ import org.apache.spark.SparkContext ...
¿Por qué Apache Spark lee columnas innecesarias de Parquet dentro de estructuras anidadas?
Mi equipo está creando un proceso ETL para cargar archivos de texto delimitados sin procesar en un "lago de datos" basado en Parquet usando Spark. Una de las promesas de la tienda de columnas Parquet es que una consulta solo leerá las "franjas de ...
Transfiera datos de la base de datos a Spark usando sparklyr
Tengo algunos datos en una base de datos y quiero trabajar con ellos en Spark, usandosparklyr. Puedo usar unDBIbasado en paquetes para importar los datos de la base de datos a R dbconn <- dbConnect(<some connection args>) data_in_r <- ...
Leer archivos dinámicamente desde HDFS desde las funciones de transformación de chispa
¿Cómo se puede leer un archivo de HDFS en una función spark que no utiliza sparkContext dentro de la función? Ejemplo: val filedata_rdd = rdd.map { x => ReadFromHDFS(x.getFilePath) }La pregunta es cómo se puede implementar ReadFromHDFS. Por lo ...
Pyspark: función de ventana personalizada
Actualmente estoy tratando de extraer series de ocurrencias consecutivas en un marco de datos PySpark y ordenarlas / clasificarlas como se muestra a continuación (por conveniencia, he ordenado el marco de datos inicial ...