Resultados de la búsqueda a petición "apache-spark"
Agregar frascos a un trabajo Spark - spark-submit
Es cierto ... se ha discutido bastante. Sin embargo, hay mucha ambigüedad y algunas de las respuestas proporcionadas ... incluida la duplicación de referencias jar en la configuración u opciones de jar / ejecutor / controlador. Los detalles ...
Lectura de un gráfico grande de Titán (en HBase) en Spark
Estoy investigando Titan (en HBase) como candidato para una gran base de datos de gráficos distribuidos. Requerimos tanto el acceso OLTP (consultas rápidas de saltos múltiples sobre el gráfico) como el acceso OLAP (cargando todo, o al menos una ...
Excepción Apache Spark EOF
Recibo una EOFException cuando ejecuto un trabajo simple que lee un archivo de texto y recopila los resultados. Esto funciona bien en mi máquina de desarrollo, pero falla al ejecutarlo en modo independiente (máquina única, maestro + trabajador). ...
El DAG dinámico de Spark es mucho más lento y diferente del DAG codificado
Tengo una operación en chispa que se debe realizar para varias columnas en un marco de datos. Generalmente, hay 2 posibilidades para especificar tales operaciones Código difícilhandleBias("bar", df) .join(handleBias("baz", df), ...
Cómo filtrar en una coincidencia parcial con sparklyr
Soy nuevo en sparklyr (pero estoy familiarizado con spark y pyspark), y tengo una pregunta muy básica. Estoy tratando de filtrar una columna en función de una coincidencia parcial. En dplyr, escribiría mi operación así: businesses %>% ...
Transformación estilo pandas de datos agrupados en PySpark DataFrame
Si tenemos un marco de datos Pandas que consiste en una columna de categorías y una columna de valores, podemos eliminar la media en cada categoría haciendo lo siguiente: df["DemeanedValues"] = df.groupby("Category")["Values"].transform(lambda ...
Impacto en el rendimiento de la API RDD frente a las UDF combinadas con la API DataFrame
(Pregunta específica de Scala). Si bien los documentos de Spark fomentan el uso de DataFrame API cuando sea posible, si DataFrame API es insuficiente, la opción suele ser recurrir a RDD API o usar UDF. ¿Existe una diferencia de rendimiento ...
Spark SQL broadcast hash join
Estoy tratando de realizar una unión hash de difusión en marcos de datos usando SparkSQL como se documenta ...
spark.sql.crossJoin.enabled para Spark 2.x
Estoy usando la 'vista previa' de Google DataProc Image 1.1 con Spark 2.0.0. Para completar una de mis operaciones, tengo que completar un producto cartesiano. Desde la versión 2.0.0 se ha creado un parámetro de configuración de chispa ...
RDD se divide y agrega en nuevos RDD
Tengo un RDD de(String,String,Int). Quiero reducirlo en base a las dos primeras cadenasY luego, en función de la primera cadena, quiero agrupar el (cadena, int) y ordenarlosDespués de ordenar, necesito agruparlos en pequeños grupos, cada uno con ...