Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Renombrar elementos anidados en Scala Spark Dataframe

Tengo un marco de datos Spark Scala con una estructura anidada: |-- _History: struct (nullable = true) | |-- Article: array (nullable = true) | | |-- element: struct (containsNull = true) | | | |-- Id: string (nullable = true) | | | |-- ...

2 la respuesta

Filtre el marco de datos de chispa / escala si la columna está presente en el conjunto

Estoy usando Spark 1.4.0, esto es lo que tengo hasta ahora: data.filter($"myColumn".in(lit("A"), lit("B"), lit("C"), ...))La ...

1 la respuesta

Factor desequilibrado de KMeans?

Editar: La respuesta de estas preguntas se discute ampliamente en:Suma en chispa ido mal [https://stackoverflow.com/questions/39627773/sum-in-spark-gone-bad] EnCalcular el costo de ...

2 la respuesta

Spark 2.0 falta chispa implícita

Usando Spark 2.0, estoy viendo que es posible convertir un marco de datos de filas en un marco de datos de clases de casos. Cuando trato de hacerlo, recibí un mensaje que indicaba que debía importarspark.implicits._. El problema que tengo es que ...

1 la respuesta

Lectura de varios archivos de S3 en Spark por período de fecha

DescripciónTengo una aplicación que envía datos a AWS Kinesis Firehose y los escribe en mi bucket de S3. Firehose utiliza el formato "aaaa / MM / dd / HH" para escribir los archivos. Como en este ejemplo de ruta ...

2 la respuesta

pyspark: NameError: el nombre 'spark' no está definido

Estoy copiando el ejemplo pyspark.ml del sitio web oficial del ...

1 la respuesta

Agrupación de conexiones en una aplicación de streaming pyspark

¿Cuál es la forma correcta de usar grupos de conexión en una aplicación de streaming ...

4 la respuesta

¿Cómo seleccionar la última fila y también cómo acceder al marco de datos PySpark por índice?

Desde un marco de datos SQL PySpark como name age city abc 20 A def 30 BCómo obtener la última fila. (Al igual que df.limit (1) puedo obtener la primera fila del marco de datos en un nuevo marco de datos). ¿Y cómo puedo acceder a las filas del ...

1 la respuesta

Unión condicional en Spark DataFrame

Estoy tratando de unir dosDataFrame Con condicion. Tengo dos marcos de datos A y B. A contiene columnas id, m_cd y c_cd B contiene columnas m_cd, c_cd y de registro Las condiciones son - Si m_cd es nulo, une c_cd de A con BSi m_cd no es nulo, ...

1 la respuesta

Spark: Guardar RDD en una ruta ya existente en HDFS

Puedo guardar la salida RDD en HDFS consaveAsTextFilemétodo. Este método genera una excepción si la ruta del archivo ya existe. Tengo un caso de uso donde necesito guardar el RDDS en una ruta de archivo ya existente en HDFS. ¿Hay alguna manera ...