Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

obtener valor del marco de datos

En Scala puedo hacerget(#) ogetAs[Type](#) para obtener valores de un marco de datos. ¿Cómo debo hacerlo enpyspark? Tengo un DataFrame de dos columnas:item(string) ysalesNum(integers). hago ungroupby ymean para obtener una media de esos números ...

1 la respuesta

consulta de actualización en Spark SQL

Me pregunto si puedo usar la consulta de actualización en sparksql como: sqlContext.sql("update users set name = '*' where name is null")Recibí el error: org.apache.spark.sql.AnalysisException: Unsupported language features in query:update ...

5 la respuesta

¿Cómo crear DataFrame de la Lista de Iterables de Scala?

Tengo el siguiente valor de Scala: val values: List[Iterable[Any]] = Traces().evaluate(features).toListy quiero convertirlo en un DataFrame. Cuando intento lo siguiente: sqlContext.createDataFrame(values)Tengo este error: error: overloaded ...

1 la respuesta

Spark Dataframe groupBy con secuencia como claves argumentos [duplicado]

Esta pregunta ya tiene una respuesta aquí: Múltiples operaciones agregadas en la misma columna de un marco de datos de chispa [/questions/34954771/multiple-aggregate-operations-on-the-same-column-of-a-spark-dataframe] 2 respuestasTengo un ...

1 la respuesta

¿Cuándo usar Spark DataFrame / Dataset API y cuándo usar RDD simple?

El motor de ejecución Spark SQL DataFrame / Dataset tiene varias optimizaciones de tiempo y espacio extremadamente eficientes (por ejemplo, InternalRow y expression codeGen). Según muchas documentaciones, parece ser una mejor opción que RDD para ...

3 la respuesta

Filtrar la columna del marco de datos Pyspark con el valor Ninguno

Estoy tratando de filtrar un marco de datos PySpark que tieneNone como un valor de fila: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), ...

2 la respuesta

¿Cómo calcular el percentil de la columna en un DataFrame en chispa?

Estoy tratando de calcular el percentil de una columna en un DataFrame? No puedo encontrar ninguna función percentile_approx en las funciones de agregación de Spark. Por ej. en Hive tenemos percentile_approx y podemos usarlo de la ...

2 la respuesta

Usar Spark para escribir un archivo de parquet en s3 sobre s3a es muy lento

Estoy tratando de escribir unparquet presentar aAmazon S3 utilizandoSpark 1.6.1. El pequeñoparquet que estoy generando es~2GB una vez escrito, entonces no son tantos datos. Estoy tratando de probarSpark fuera como una plataforma que ...

1 la respuesta

Mover Spark DataFrame de Python a Scala con Zeppelin

Creé un DataFrame de chispa en un párrafo de Python en Zeppelin. sqlCtx = SQLContext(sc) spDf = sqlCtx.createDataFrame(df)ydf es un marco de datos de pandas print(type(df)) <class 'pandas.core.frame.DataFrame'>lo que quiero hacer es mudarmespDf ...

2 la respuesta

¿Por qué Spark SQL considera que el soporte de índices no es importante?

Citando los Spark DataFrames,Conjuntos de datos y manual de SQL [http://spark.apache.org/docs/latest/sql-programming-guide.html#unsupported-hive-functionality] : Un puñado de optimizaciones de Hive aún no están incluidas en Spark. Algunos ...