Resultados de la búsqueda a petición "apache-spark"
¿Cómo calcular el mejor número de Particiones para la fusión?
Entonces, entiendo que en general uno debería usarcoalesce() cuando: el número de particiones disminuye debido a unfilter o alguna otra operación que pueda resultar en la reducción del conjunto de datos original (RDD, DF).coalesce() es útil para ...
Pase el código de salida personalizado desde la chispa del modo cluster de hilo a la CLI
Comencé un trabajo de chispa en modo cluster de hilo a través de spark-submit. Para indicar una falla parcial, etc. Quiero pasar el código de salida del controlador al script que llama a spark-submit. Probé ambos, System.exit y lancé ...
Spark: codificador OneHot y tubería de almacenamiento (problema de dimensión de característica)
Tenemos una tubería (2.0.1) que consta de múltiples etapas de transformación de características. Algunas de estas etapas son codificadores OneHot. Idea: clasificar una categoría basada en enteros en n características independientes. Al entrenar ...
PySpark: agregue una nueva columna anidada o cambie el valor de las columnas anidadas existentes
Supongamos que tengo un archivo json con líneas en la siguiente estructura: { "a": 1, "b": { "bb1": 1, "bb2": 2 } }Quiero cambiar el valor de la clavebb1 o agregue una nueva clave, como:bb3. Actualmente, uso spark.read.json para cargar el ...
Spark Structured Streaming usando sockets, configure SCHEMA, Display DATAFRAME en la consola
¿Cómo puedo configurar un esquema para una transmisión?DataFrame en PySpark from pyspark.sql import SparkSession from pyspark.sql.functions import explode from pyspark.sql.functions import split # Import data types from pyspark.sql.types import ...
¿La opción ignorar de la función jdbc de Pyspark DataFrameWriter ignora toda la transacción o solo ofende las filas?
El PysparkDataFrameWriter la clase tiene unjdbc función [http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter.jdbc] para escribir un marco de datos en sql. Esta función tiene un--ignore opción que dice la ...
En chispa, ¿cómo funciona la transmisión?
Esta es una pregunta muy simple: en chispa,broadcast se puede usar para enviar variables a los ejecutores de manera eficiente. Como funciona esto ? Más precisamente: cuando se envían los valores: tan pronto como llamobroadcasto cuando se usan ...
¿Mejor práctica para lanzar aplicaciones Spark a través de la aplicación web?
Quiero exponer mis aplicaciones Spark a los usuarios con una aplicación web. Básicamente, el usuario puede decidir qué acción quiere ejecutar e ingresar algunas variables, que deben pasar a la aplicación de chispa. Por ejemplo: el usuario ...
El valor de la configuración "spark.yarn.executor.memoryOverhead"?
El valor despark.yarn.executor.memoryOverhead en un trabajo de Spark con YARN debe asignarse a la aplicación o solo al valor máximo?
Resolver problemas de dependencia en Apache Spark
Los problemas comunes al construir e implementar aplicaciones Spark son: java.lang.ClassNotFoundException.object x is not a member of package y errores de compilaciónjava.lang.NoSuchMethodError¿Cómo se pueden resolver?