Resultados de la búsqueda a petición "apache-spark"
Renombrar elementos anidados en Scala Spark Dataframe
Tengo un marco de datos Spark Scala con una estructura anidada: |-- _History: struct (nullable = true) | |-- Article: array (nullable = true) | | |-- element: struct (containsNull = true) | | | |-- Id: string (nullable = true) | | | |-- ...
Filtre el marco de datos de chispa / escala si la columna está presente en el conjunto
Estoy usando Spark 1.4.0, esto es lo que tengo hasta ahora: data.filter($"myColumn".in(lit("A"), lit("B"), lit("C"), ...))La ...
Factor desequilibrado de KMeans?
Editar: La respuesta de estas preguntas se discute ampliamente en:Suma en chispa ido mal [https://stackoverflow.com/questions/39627773/sum-in-spark-gone-bad] EnCalcular el costo de ...
Spark 2.0 falta chispa implícita
Usando Spark 2.0, estoy viendo que es posible convertir un marco de datos de filas en un marco de datos de clases de casos. Cuando trato de hacerlo, recibí un mensaje que indicaba que debía importarspark.implicits._. El problema que tengo es que ...
Lectura de varios archivos de S3 en Spark por período de fecha
DescripciónTengo una aplicación que envía datos a AWS Kinesis Firehose y los escribe en mi bucket de S3. Firehose utiliza el formato "aaaa / MM / dd / HH" para escribir los archivos. Como en este ejemplo de ruta ...
pyspark: NameError: el nombre 'spark' no está definido
Estoy copiando el ejemplo pyspark.ml del sitio web oficial del ...
Agrupación de conexiones en una aplicación de streaming pyspark
¿Cuál es la forma correcta de usar grupos de conexión en una aplicación de streaming ...
¿Cómo seleccionar la última fila y también cómo acceder al marco de datos PySpark por índice?
Desde un marco de datos SQL PySpark como name age city abc 20 A def 30 BCómo obtener la última fila. (Al igual que df.limit (1) puedo obtener la primera fila del marco de datos en un nuevo marco de datos). ¿Y cómo puedo acceder a las filas del ...
Unión condicional en Spark DataFrame
Estoy tratando de unir dosDataFrame Con condicion. Tengo dos marcos de datos A y B. A contiene columnas id, m_cd y c_cd B contiene columnas m_cd, c_cd y de registro Las condiciones son - Si m_cd es nulo, une c_cd de A con BSi m_cd no es nulo, ...
Spark: Guardar RDD en una ruta ya existente en HDFS
Puedo guardar la salida RDD en HDFS consaveAsTextFilemétodo. Este método genera una excepción si la ruta del archivo ya existe. Tengo un caso de uso donde necesito guardar el RDDS en una ruta de archivo ya existente en HDFS. ¿Hay alguna manera ...