Resultados de la búsqueda a petición "apache-spark"
¿Cuándo usar Spark DataFrame / Dataset API y cuándo usar RDD simple?
El motor de ejecución Spark SQL DataFrame / Dataset tiene varias optimizaciones de tiempo y espacio extremadamente eficientes (por ejemplo, InternalRow y expression codeGen). Según muchas documentaciones, parece ser una mejor opción que RDD para ...
Cómo pasar variables de entorno al controlador de chispa en modo de clúster con envío de chispa
spark-submit permite configurar las variables de entorno del ejecutor con--conf spark.executorEnv.FOO=bar, y la API REST de Spark permite pasar algunas variables de entorno con elenvironmentVariables campo. Lamentablemente, no he encontrado nada ...
Parámetros de ajuste para el modelo de factorización de matriz ALS pyspark.ml implícito a través de pyspark.ml CrossValidator
Estoy tratando de ajustar los parámetros de un modelo de factorización de matriz ALS que usa datos implícitos. Para esto, estoy tratando de usar pyspark.ml.tuning.CrossValidator para ejecutar una cuadrícula de parámetros y seleccionar el mejor ...
¿Cómo explotar columnas?
Después: val df = Seq((1, Vector(2, 3, 4)), (1, Vector(2, 3, 4))).toDF("Col1", "Col2") Tengo este DataFrame en Apache Spark: +------+---------+ | Col1 | Col2 | +------+---------+ | 1 |[2, 3, 4]| | 1 |[2, 3, 4]| +------+---------+¿Cómo convierto ...
Filtrar la columna del marco de datos Pyspark con el valor Ninguno
Estoy tratando de filtrar un marco de datos PySpark que tieneNone como un valor de fila: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), ...
¿Cómo calcular el percentil de la columna en un DataFrame en chispa?
Estoy tratando de calcular el percentil de una columna en un DataFrame? No puedo encontrar ninguna función percentile_approx en las funciones de agregación de Spark. Por ej. en Hive tenemos percentile_approx y podemos usarlo de la ...
Usar Spark para escribir un archivo de parquet en s3 sobre s3a es muy lento
Estoy tratando de escribir unparquet presentar aAmazon S3 utilizandoSpark 1.6.1. El pequeñoparquet que estoy generando es~2GB una vez escrito, entonces no son tantos datos. Estoy tratando de probarSpark fuera como una plataforma que ...
Mover Spark DataFrame de Python a Scala con Zeppelin
Creé un DataFrame de chispa en un párrafo de Python en Zeppelin. sqlCtx = SQLContext(sc) spDf = sqlCtx.createDataFrame(df)ydf es un marco de datos de pandas print(type(df)) <class 'pandas.core.frame.DataFrame'>lo que quiero hacer es mudarmespDf ...
Cómo registrar el byte [] [] usando la serialización de kryo para spark
Estoy tratando de utilizar completamente la serialización de kryo para la chispa. Ajuste .set("spark.kryo.registrationRequired", "true")Esto me permitirá saber qué clases deben registrarse. He registrado alrededor de 40 clases, algunas de ...
Cómo leer un archivo de HDFS en map () rápidamente con Spark
Necesito leer un archivo diferente en cada mapa (), el archivo está en HDFS val rdd=sc.parallelize(1 to 10000) val rdd2=rdd.map{x=> val hdfs = org.apache.hadoop.fs.FileSystem.get(new java.net.URI("hdfs://ITS-Hadoop10:9000/"), ...