Resultados de la búsqueda a petición "apache-spark"

Estoy tratando de usar la chispaConjunto de datos [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html]API pero tengo algunos problemas para hacer una unión simple. Digamos que tengo dos conjuntos de datos con campos:date | ...

multithreading scala

1 la respuesta

Número de CPU por tarea en Spark

No entiendospark.task.cpus parámetro. Me parece que una "tarea" corresponde a un "hilo" o un "proceso", si lo desea, dentro del ejecutor. Supongamos que configuro "spark.task.cpus" en 2. ¿Cómo puede un hilo utilizar dos CPU simultáneamente? ¿No ...

parallel-processing multithreading multicore

1 la respuesta

¿Cómo logra Spark el paralelismo dentro de una tarea en máquinas de múltiples núcleos o hiperhilos?

He estado leyendo e intentando entender cómo Spark Framework utiliza sus núcleos enSer únicomodo. Según la documentación de Spark, el parámetro "spark.task.cpus El valor de "se establece en 1 de forma predeterminada, lo que significa la cantidad ...

scala

1 la respuesta

Convertir DataFrame a RDD [Mapa] en Scala

Quiero convertir una matriz creada como: case class Student(name: String, age: Int) val dataFrame: DataFrame = sql.createDataFrame(sql.sparkContext.parallelize(List(Student("Torcuato", 27), Student("Rosalinda", 34))))Cuando recopilo los ...

yarn

1 la respuesta

¿spark.yarn.driver.memoryOverhead o spark.yarn.executor.memoryOverhead se utilizan para almacenar qué tipo de datos?

Me preguntaba eso: spark utiliza el spark.yarn.driver.memoryOverhead o spark.yarn.executor.memoryOverhead para almacenar qué tipo de datos?¿Y en qué caso debo aumentar el valor de spark.yarn.driver.memoryOverhead ...

scala apache-spark-sql dataframe

1 la respuesta

¿Cómo seleccionar un subconjunto de campos de una columna de matriz en Spark?

Digamos que tengo un DataFrame de la siguiente manera: case class SubClass(id:String, size:Int,useless:String) case class MotherClass(subClasss: Array[SubClass]) val df = sqlContext.createDataFrame(List( ...

pyspark apache-spark-sql python

2 la respuesta

Composición de la función de fila de PySpark

Como ejemplo simplificado, tengo un marco de datos "df" con las columnas "col1, col2" y quiero calcular un máximo en filas después de aplicar una función a cada columna: def f(x): return (x+1) max_udf=udf(lambda x,y: max(x,y), ...

scala sql

1 la respuesta

Spark scala: SELECT en un bucle foreach devuelve java.lang.NullPointerException

Necesito iterar sobre el contenido de un DF con varias instrucciones SELECT dentro de un bucle foreach, escribiendo la salida en archivos de texto. Cualquier instrucción SELECT dentro del bucle foreach devuelve una NullPointerException. No puedo ...

python apache-spark-sql dataframe pyspark

1 la respuesta

Cómo realizar una instrucción Switch con Apache Spark Dataframes (Python)

Estoy tratando de realizar una operación en mis datos donde un cierto valor se asignará a una lista de valores predeterminados si coincide con uno de los criterios, o con un valor de caída de lo contrario. Este sería el SQL equivalente: CASE ...

pyspark user-defined-functions scala apache-zeppelin

2 la respuesta

Registre UDF en SqlContext desde Scala para usar en PySpark

¿Es posible registrar un UDF (o función) escrito en Scala para usar en PySpark? P.ej.: val mytable = sc.parallelize(1 to 2).toDF("spam") mytable.registerTempTable("mytable") def addOne(m: Integer): Integer = m + 1 // Spam: 1, 2En Scala, ahora es ...

Página 3 de 165

1 234 5

Resultados de la búsqueda a petición "apache-spark"

Spark Dataset API - unirse

Número de CPU por tarea en Spark

¿Cómo logra Spark el paralelismo dentro de una tarea en máquinas de múltiples núcleos o hiperhilos?

Etiquetas Populares

Convertir DataFrame a RDD [Mapa] en Scala

¿spark.yarn.driver.memoryOverhead o spark.yarn.executor.memoryOverhead se utilizan para almacenar qué tipo de datos?

¿Cómo seleccionar un subconjunto de campos de una columna de matriz en Spark?

Composición de la función de fila de PySpark

Spark scala: SELECT en un bucle foreach devuelve java.lang.NullPointerException

Cómo realizar una instrucción Switch con Apache Spark Dataframes (Python)

Registre UDF en SqlContext desde Scala para usar en PySpark

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares