Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

Agregar frascos a un trabajo Spark - spark-submit

Es cierto ... se ha discutido bastante. Sin embargo, hay mucha ambigüedad y algunas de las respuestas proporcionadas ... incluida la duplicación de referencias jar en la configuración u opciones de jar / ejecutor / controlador. Los detalles ...

1 la respuesta

Lectura de un gráfico grande de Titán (en HBase) en Spark

Estoy investigando Titan (en HBase) como candidato para una gran base de datos de gráficos distribuidos. Requerimos tanto el acceso OLTP (consultas rápidas de saltos múltiples sobre el gráfico) como el acceso OLAP (cargando todo, o al menos una ...

1 la respuesta

Excepción Apache Spark EOF

Recibo una EOFException cuando ejecuto un trabajo simple que lee un archivo de texto y recopila los resultados. Esto funciona bien en mi máquina de desarrollo, pero falla al ejecutarlo en modo independiente (máquina única, maestro + trabajador). ...

1 la respuesta

El DAG dinámico de Spark es mucho más lento y diferente del DAG codificado

Tengo una operación en chispa que se debe realizar para varias columnas en un marco de datos. Generalmente, hay 2 posibilidades para especificar tales operaciones Código difícilhandleBias("bar", df) .join(handleBias("baz", df), ...

1 la respuesta

Cómo filtrar en una coincidencia parcial con sparklyr

Soy nuevo en sparklyr (pero estoy familiarizado con spark y pyspark), y tengo una pregunta muy básica. Estoy tratando de filtrar una columna en función de una coincidencia parcial. En dplyr, escribiría mi operación así: businesses %>% ...

2 la respuesta

Transformación estilo pandas de datos agrupados en PySpark DataFrame

Si tenemos un marco de datos Pandas que consiste en una columna de categorías y una columna de valores, podemos eliminar la media en cada categoría haciendo lo siguiente: df["DemeanedValues"] = df.groupby("Category")["Values"].transform(lambda ...

1 la respuesta

Impacto en el rendimiento de la API RDD frente a las UDF combinadas con la API DataFrame

(Pregunta específica de Scala). Si bien los documentos de Spark fomentan el uso de DataFrame API cuando sea posible, si DataFrame API es insuficiente, la opción suele ser recurrir a RDD API o usar UDF. ¿Existe una diferencia de rendimiento ...

3 la respuesta

Spark SQL broadcast hash join

Estoy tratando de realizar una unión hash de difusión en marcos de datos usando SparkSQL como se documenta ...

3 la respuesta

spark.sql.crossJoin.enabled para Spark 2.x

Estoy usando la 'vista previa' de Google DataProc Image 1.1 con Spark 2.0.0. Para completar una de mis operaciones, tengo que completar un producto cartesiano. Desde la versión 2.0.0 se ha creado un parámetro de configuración de chispa ...

1 la respuesta

RDD se divide y agrega en nuevos RDD

Tengo un RDD de(String,String,Int). Quiero reducirlo en base a las dos primeras cadenasY luego, en función de la primera cadena, quiero agrupar el (cadena, int) y ordenarlosDespués de ordenar, necesito agruparlos en pequeños grupos, cada uno con ...