Resultados de la búsqueda a petición "apache-spark"

El motor de ejecución Spark SQL DataFrame / Dataset tiene varias optimizaciones de tiempo y espacio extremadamente eficientes (por ejemplo, InternalRow y expression codeGen). Según muchas documentaciones, parece ser una mejor opción que RDD para ...

environment-variables

4 la respuesta

Cómo pasar variables de entorno al controlador de chispa en modo de clúster con envío de chispa

spark-submit permite configurar las variables de entorno del ejecutor con--conf spark.executorEnv.FOO=bar, y la API REST de Spark permite pasar algunas variables de entorno con elenvironmentVariables campo. Lamentablemente, no he encontrado nada ...

python apache-spark-ml pyspark

2 la respuesta

Parámetros de ajuste para el modelo de factorización de matriz ALS pyspark.ml implícito a través de pyspark.ml CrossValidator

Estoy tratando de ajustar los parámetros de un modelo de factorización de matriz ALS que usa datos implícitos. Para esto, estoy tratando de usar pyspark.ml.tuning.CrossValidator para ejecutar una cuadrícula de parámetros y seleccionar el mejor ...

spark-dataframe dataframe

4 la respuesta

¿Cómo explotar columnas?

Después: val df = Seq((1, Vector(2, 3, 4)), (1, Vector(2, 3, 4))).toDF("Col1", "Col2") Tengo este DataFrame en Apache Spark: +------+---------+ | Col1 | Col2 | +------+---------+ | 1 |[2, 3, 4]| | 1 |[2, 3, 4]| +------+---------+¿Cómo convierto ...

dataframe pyspark python apache-spark-sql

3 la respuesta

Filtrar la columna del marco de datos Pyspark con el valor Ninguno

Estoy tratando de filtrar un marco de datos PySpark que tieneNone como un valor de fila: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), ...

apache-spark-sql spark-dataframe scala

2 la respuesta

¿Cómo calcular el percentil de la columna en un DataFrame en chispa?

Estoy tratando de calcular el percentil de una columna en un DataFrame? No puedo encontrar ninguna función percentile_approx en las funciones de agregación de Spark. Por ej. en Hive tenemos percentile_approx y podemos usarlo de la ...

scala apache-spark-sql amazon-s3 parquet

2 la respuesta

Usar Spark para escribir un archivo de parquet en s3 sobre s3a es muy lento

Estoy tratando de escribir unparquet presentar aAmazon S3 utilizandoSpark 1.6.1. El pequeñoparquet que estoy generando es~2GB una vez escrito, entonces no son tantos datos. Estoy tratando de probarSpark fuera como una plataforma que ...

python scala apache-spark-sql apache-zeppelin

1 la respuesta

Mover Spark DataFrame de Python a Scala con Zeppelin

Creé un DataFrame de chispa en un párrafo de Python en Zeppelin. sqlCtx = SQLContext(sc) spDf = sqlCtx.createDataFrame(df)ydf es un marco de datos de pandas print(type(df)) <class 'pandas.core.frame.DataFrame'>lo que quiero hacer es mudarmespDf ...

scala kryo

1 la respuesta

Cómo registrar el byte [] [] usando la serialización de kryo para spark

Estoy tratando de utilizar completamente la serialización de kryo para la chispa. Ajuste .set("spark.kryo.registrationRequired", "true")Esto me permitirá saber qué clases deben registrarse. He registrado alrededor de 40 clases, algunas de ...

scala

1 la respuesta

Cómo leer un archivo de HDFS en map () rápidamente con Spark

Necesito leer un archivo diferente en cada mapa (), el archivo está en HDFS val rdd=sc.parallelize(1 to 10000) val rdd2=rdd.map{x=> val hdfs = org.apache.hadoop.fs.FileSystem.get(new java.net.URI("hdfs://ITS-Hadoop10:9000/"), ...

Página 13 de 165

11 121314 15

Resultados de la búsqueda a petición "apache-spark"

¿Cuándo usar Spark DataFrame / Dataset API y cuándo usar RDD simple?

Cómo pasar variables de entorno al controlador de chispa en modo de clúster con envío de chispa

Parámetros de ajuste para el modelo de factorización de matriz ALS pyspark.ml implícito a través de pyspark.ml CrossValidator

Etiquetas Populares

¿Cómo explotar columnas?

Filtrar la columna del marco de datos Pyspark con el valor Ninguno

¿Cómo calcular el percentil de la columna en un DataFrame en chispa?

Usar Spark para escribir un archivo de parquet en s3 sobre s3a es muy lento

Mover Spark DataFrame de Python a Scala con Zeppelin

Cómo registrar el byte [] [] usando la serialización de kryo para spark

Cómo leer un archivo de HDFS en map () rápidamente con Spark

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares