Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

¿Cómo calcular el mejor número de Particiones para la fusión?

Entonces, entiendo que en general uno debería usarcoalesce() cuando: el número de particiones disminuye debido a unfilter o alguna otra operación que pueda resultar en la reducción del conjunto de datos original (RDD, DF).coalesce() es útil para ...

2 la respuesta

Pase el código de salida personalizado desde la chispa del modo cluster de hilo a la CLI

Comencé un trabajo de chispa en modo cluster de hilo a través de spark-submit. Para indicar una falla parcial, etc. Quiero pasar el código de salida del controlador al script que llama a spark-submit. Probé ambos, System.exit y lancé ...

1 la respuesta

Spark: codificador OneHot y tubería de almacenamiento (problema de dimensión de característica)

Tenemos una tubería (2.0.1) que consta de múltiples etapas de transformación de características. Algunas de estas etapas son codificadores OneHot. Idea: clasificar una categoría basada en enteros en n características independientes. Al entrenar ...

1 la respuesta

PySpark: agregue una nueva columna anidada o cambie el valor de las columnas anidadas existentes

Supongamos que tengo un archivo json con líneas en la siguiente estructura: { "a": 1, "b": { "bb1": 1, "bb2": 2 } }Quiero cambiar el valor de la clavebb1 o agregue una nueva clave, como:bb3. Actualmente, uso spark.read.json para cargar el ...

1 la respuesta

Spark Structured Streaming usando sockets, configure SCHEMA, Display DATAFRAME en la consola

¿Cómo puedo configurar un esquema para una transmisión?DataFrame en PySpark from pyspark.sql import SparkSession from pyspark.sql.functions import explode from pyspark.sql.functions import split # Import data types from pyspark.sql.types import ...

1 la respuesta

¿La opción ignorar de la función jdbc de Pyspark DataFrameWriter ignora toda la transacción o solo ofende las filas?

El PysparkDataFrameWriter la clase tiene unjdbc función [http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter.jdbc] para escribir un marco de datos en sql. Esta función tiene un--ignore opción que dice la ...

2 la respuesta

En chispa, ¿cómo funciona la transmisión?

Esta es una pregunta muy simple: en chispa,broadcast se puede usar para enviar variables a los ejecutores de manera eficiente. Como funciona esto ? Más precisamente: cuando se envían los valores: tan pronto como llamobroadcasto cuando se usan ...

2 la respuesta

¿Mejor práctica para lanzar aplicaciones Spark a través de la aplicación web?

Quiero exponer mis aplicaciones Spark a los usuarios con una aplicación web. Básicamente, el usuario puede decidir qué acción quiere ejecutar e ingresar algunas variables, que deben pasar a la aplicación de chispa. Por ejemplo: el usuario ...

2 la respuesta

El valor de la configuración "spark.yarn.executor.memoryOverhead"?

El valor despark.yarn.executor.memoryOverhead en un trabajo de Spark con YARN debe asignarse a la aplicación o solo al valor máximo?

7 la respuesta

Resolver problemas de dependencia en Apache Spark

Los problemas comunes al construir e implementar aplicaciones Spark son: java.lang.ClassNotFoundException.object x is not a member of package y errores de compilaciónjava.lang.NoSuchMethodError¿Cómo se pueden resolver?