Resultados de la búsqueda a petición "apache-spark"
Spark Dataset API - unirse
Estoy tratando de usar la chispaConjunto de datos [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html]API pero tengo algunos problemas para hacer una unión simple. Digamos que tengo dos conjuntos de datos con campos:date | ...
Número de CPU por tarea en Spark
No entiendospark.task.cpus parámetro. Me parece que una "tarea" corresponde a un "hilo" o un "proceso", si lo desea, dentro del ejecutor. Supongamos que configuro "spark.task.cpus" en 2. ¿Cómo puede un hilo utilizar dos CPU simultáneamente? ¿No ...
¿Cómo logra Spark el paralelismo dentro de una tarea en máquinas de múltiples núcleos o hiperhilos?
He estado leyendo e intentando entender cómo Spark Framework utiliza sus núcleos enSer únicomodo. Según la documentación de Spark, el parámetro "spark.task.cpus El valor de "se establece en 1 de forma predeterminada, lo que significa la cantidad ...
Convertir DataFrame a RDD [Mapa] en Scala
Quiero convertir una matriz creada como: case class Student(name: String, age: Int) val dataFrame: DataFrame = sql.createDataFrame(sql.sparkContext.parallelize(List(Student("Torcuato", 27), Student("Rosalinda", 34))))Cuando recopilo los ...
¿spark.yarn.driver.memoryOverhead o spark.yarn.executor.memoryOverhead se utilizan para almacenar qué tipo de datos?
Me preguntaba eso: spark utiliza el spark.yarn.driver.memoryOverhead o spark.yarn.executor.memoryOverhead para almacenar qué tipo de datos?¿Y en qué caso debo aumentar el valor de spark.yarn.driver.memoryOverhead ...
¿Cómo seleccionar un subconjunto de campos de una columna de matriz en Spark?
Digamos que tengo un DataFrame de la siguiente manera: case class SubClass(id:String, size:Int,useless:String) case class MotherClass(subClasss: Array[SubClass]) val df = sqlContext.createDataFrame(List( ...
Composición de la función de fila de PySpark
Como ejemplo simplificado, tengo un marco de datos "df" con las columnas "col1, col2" y quiero calcular un máximo en filas después de aplicar una función a cada columna: def f(x): return (x+1) max_udf=udf(lambda x,y: max(x,y), ...
Spark scala: SELECT en un bucle foreach devuelve java.lang.NullPointerException
Necesito iterar sobre el contenido de un DF con varias instrucciones SELECT dentro de un bucle foreach, escribiendo la salida en archivos de texto. Cualquier instrucción SELECT dentro del bucle foreach devuelve una NullPointerException. No puedo ...
Cómo realizar una instrucción Switch con Apache Spark Dataframes (Python)
Estoy tratando de realizar una operación en mis datos donde un cierto valor se asignará a una lista de valores predeterminados si coincide con uno de los criterios, o con un valor de caída de lo contrario. Este sería el SQL equivalente: CASE ...
Registre UDF en SqlContext desde Scala para usar en PySpark
¿Es posible registrar un UDF (o función) escrito en Scala para usar en PySpark? P.ej.: val mytable = sc.parallelize(1 to 2).toDF("spam") mytable.registerTempTable("mytable") def addOne(m: Integer): Integer = m + 1 // Spam: 1, 2En Scala, ahora es ...