Resultados de la búsqueda a petición "apache-spark"
Esquema de particionamiento predeterminado en Spark
Cuando ejecuto el siguiente comando: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> ...
Crear histogramas agrupados en Spark
Supongamos que tengo un marco de datos (df) (Pandas) o RDD (Spark) con las siguientes dos columnas: timestamp, data 12345.0 10 12346.0 12En Pandas, puedo crear un histograma en bin de diferentes longitudes de bin con bastante facilidad. Por ...
Cómo calcular la mediana en spark sqlContext para la columna de tipo de datos double
He dado la tabla de muestra. Quiero obtener la mediana de la columna "valor" para cada columna "fuente" de cada grupo. Donde la columna de origen es de String DataType, la columna de valor es de doble DataType scala> sqlContext.sql("SELECT * ...
Personalizar la distancia del formulario K-means en Apache Spark Python
Ahora estoy usando K-means para agrupar y seguireste tutorial [http://spark.apache.org/docs/latest/mllib-clustering.html]yAPI [https://spark.apache.org/docs/1.0.0/api/python/pyspark.mllib.clustering-module.html] . Pero quiero usar una fórmula ...
¿Cómo convierto una columna WrappedArray en el marco de datos de spark a Strings?
Estoy tratando de convertir una columna que contiene Array [String] a String, pero constantemente aparece este error org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 78.0 failed 4 times, most recent failure: ...
¿Cómo aplicar una función a una columna de un Spark DataFrame?
Supongamos que tenemos un Spark DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFramecon el siguiente esquema df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array (nullable = ...
Trabajo SparkR 100 minutos de tiempo de espera
He escrito un script sparkR un poco complejo y lo ejecuto usando spark-submit. Lo que básicamente hace el script es leer una gran tabla basada en parqué colmena / impala fila por fila y generar un nuevo archivo de parquet que tenga el mismo ...
¿Por qué mi Spark funciona más lento que Python puro? Comparación de rendimiento
Spark novato aquí. Intenté hacer algunas acciones de pandas en mi marco de datos usando Spark, y sorprendentemente es más lento que Python puro (es decir, usando el paquete de pandas en Python). Esto es lo que hice: 1) En ...
Cómo medir el tiempo de ejecución de una consulta en Spark
Necesito medir el tiempo de ejecución de la consulta en Apache spark (Bluemix). Lo que probé: import time startTimeQuery = time.clock() df = sqlContext.sql(query) df.show() endTimeQuery = time.clock() runTimeQuery = endTimeQuery - ...
¿Qué significa "Stage Skipped" en la interfaz de usuario web de Apache Spark?
Desde mi IU Spark. ¿Qué significa omitido? [/imgs/cyvd1.png]