Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

Spark Dataset API - unirse

Estoy tratando de usar la chispaConjunto de datos [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html]API pero tengo algunos problemas para hacer una unión simple. Digamos que tengo dos conjuntos de datos con campos:date | ...

1 la respuesta

Número de CPU por tarea en Spark

No entiendospark.task.cpus parámetro. Me parece que una "tarea" corresponde a un "hilo" o un "proceso", si lo desea, dentro del ejecutor. Supongamos que configuro "spark.task.cpus" en 2. ¿Cómo puede un hilo utilizar dos CPU simultáneamente? ¿No ...

1 la respuesta

¿Cómo logra Spark el paralelismo dentro de una tarea en máquinas de múltiples núcleos o hiperhilos?

He estado leyendo e intentando entender cómo Spark Framework utiliza sus núcleos enSer únicomodo. Según la documentación de Spark, el parámetro "spark.task.cpus El valor de "se establece en 1 de forma predeterminada, lo que significa la cantidad ...

1 la respuesta

Convertir DataFrame a RDD [Mapa] en Scala

Quiero convertir una matriz creada como: case class Student(name: String, age: Int) val dataFrame: DataFrame = sql.createDataFrame(sql.sparkContext.parallelize(List(Student("Torcuato", 27), Student("Rosalinda", 34))))Cuando recopilo los ...

1 la respuesta

¿spark.yarn.driver.memoryOverhead o spark.yarn.executor.memoryOverhead se utilizan para almacenar qué tipo de datos?

Me preguntaba eso: spark utiliza el spark.yarn.driver.memoryOverhead o spark.yarn.executor.memoryOverhead para almacenar qué tipo de datos?¿Y en qué caso debo aumentar el valor de spark.yarn.driver.memoryOverhead ...

1 la respuesta

¿Cómo seleccionar un subconjunto de campos de una columna de matriz en Spark?

Digamos que tengo un DataFrame de la siguiente manera: case class SubClass(id:String, size:Int,useless:String) case class MotherClass(subClasss: Array[SubClass]) val df = sqlContext.createDataFrame(List( ...

2 la respuesta

Composición de la función de fila de PySpark

Como ejemplo simplificado, tengo un marco de datos "df" con las columnas "col1, col2" y quiero calcular un máximo en filas después de aplicar una función a cada columna: def f(x): return (x+1) max_udf=udf(lambda x,y: max(x,y), ...

1 la respuesta

Spark scala: SELECT en un bucle foreach devuelve java.lang.NullPointerException

Necesito iterar sobre el contenido de un DF con varias instrucciones SELECT dentro de un bucle foreach, escribiendo la salida en archivos de texto. Cualquier instrucción SELECT dentro del bucle foreach devuelve una NullPointerException. No puedo ...

1 la respuesta

Cómo realizar una instrucción Switch con Apache Spark Dataframes (Python)

Estoy tratando de realizar una operación en mis datos donde un cierto valor se asignará a una lista de valores predeterminados si coincide con uno de los criterios, o con un valor de caída de lo contrario. Este sería el SQL equivalente: CASE ...

2 la respuesta

Registre UDF en SqlContext desde Scala para usar en PySpark

¿Es posible registrar un UDF (o función) escrito en Scala para usar en PySpark? P.ej.: val mytable = sc.parallelize(1 to 2).toDF("spam") mytable.registerTempTable("mytable") def addOne(m: Integer): Integer = m + 1 // Spam: 1, 2En Scala, ahora es ...