Resultados de la búsqueda a petición "apache-spark"

Estoy leyendo la consulta de un archivo en tiempo de ejecución y ejecutándola en el entorno SPark + Cassandra. Estoy ejecutando: sparkContext.cassandraTable.("keyspaceName", "colFamilyName").select("col1", "col2", "col3").where("some condition = ...

scala

3 la respuesta

Replicar la fila de chispas N veces

Quiero duplicar una fila en un DataFrame, ¿cómo puedo hacer eso? Por ejemplo, tengo un DataFrame que consta de 1 fila, y quiero hacer un DataFrame con 100 filas idénticas. Se me ocurrió la siguiente solución: var data:DataFrame=singleRowDF ...

spark-dataframe

1 la respuesta

¿Cuál es la diferencia entre las funciones sort y orderBy en Spark?

dataframe scala apache-spark-dataset apache-spark-sql

1 la respuesta

Cómo obtener claves y valores de la columna MapType en SparkSQL DataFrame

Tengo datos en un archivo de parquet que tiene 2 campos:object_id: String yalpha: Map<>. Se lee en un marco de datos en sparkSQL y el esquema se ve así: scala> alphaDF.printSchema() root |-- object_id: string (nullable = true) |-- ALPHA: map ...

apache-spark-sql apache-spark-dataset

2 la respuesta

¿Por qué las columnas cambian a nulables en Apache Spark SQL?

Por que esnullable = true se usa después de ejecutar algunas funciones, aunque no haya valores NaN enDataFrame. val myDf = Seq((2,"A"),(2,"B"),(1,"C")) .toDF("foo","bar") .withColumn("foo", 'foo.cast("Int")) myDf.withColumn("foo_2", when($"foo" ...

hadoop amazon-ec2 scala java

2 la respuesta

Conexión a un maestro remoto de Spark - Java / Scala

Creé un nodo 3 (1 maestro, 2 trabajadores)Apache Spark clúster en AWS. Puedo enviar trabajos al clúster desde el maestro, sin embargo, no puedo hacer que funcione de forma remota. /* SimpleApp.scala */ import org.apache.spark.SparkContext ...

spark-dataframe parquet

1 la respuesta

¿Por qué Apache Spark lee columnas innecesarias de Parquet dentro de estructuras anidadas?

Mi equipo está creando un proceso ETL para cargar archivos de texto delimitados sin procesar en un "lago de datos" basado en Parquet usando Spark. Una de las promesas de la tienda de columnas Parquet es que una consulta solo leerá las "franjas de ...

r dataframe sparklyr

1 la respuesta

Transfiera datos de la base de datos a Spark usando sparklyr

Tengo algunos datos en una base de datos y quiero trabajar con ellos en Spark, usandosparklyr. Puedo usar unDBIbasado en paquetes para importar los datos de la base de datos a R dbconn <- dbConnect(<some connection args>) data_in_r <- ...

spark-streaming

1 la respuesta

Leer archivos dinámicamente desde HDFS desde las funciones de transformación de chispa

¿Cómo se puede leer un archivo de HDFS en una función spark que no utiliza sparkContext dentro de la función? Ejemplo: val filedata_rdd = rdd.map { x => ReadFromHDFS(x.getFilePath) }La pregunta es cómo se puede implementar ReadFromHDFS. Por lo ...

apache-spark-sql pyspark window-functions

2 la respuesta

Pyspark: función de ventana personalizada

Actualmente estoy tratando de extraer series de ocurrencias consecutivas en un marco de datos PySpark y ordenarlas / clasificarlas como se muestra a continuación (por conveniencia, he ordenado el marco de datos inicial ...

Página 32 de 165

30 313233 34

Resultados de la búsqueda a petición "apache-spark"

Pase columnNames dinámicamente a cassandraTable (). Select ()

Replicar la fila de chispas N veces

¿Cuál es la diferencia entre las funciones sort y orderBy en Spark?

Etiquetas Populares

Cómo obtener claves y valores de la columna MapType en SparkSQL DataFrame

¿Por qué las columnas cambian a nulables en Apache Spark SQL?

Conexión a un maestro remoto de Spark - Java / Scala

¿Por qué Apache Spark lee columnas innecesarias de Parquet dentro de estructuras anidadas?

Transfiera datos de la base de datos a Spark usando sparklyr

Leer archivos dinámicamente desde HDFS desde las funciones de transformación de chispa

Pyspark: función de ventana personalizada

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares