Resultados de la búsqueda a petición "apache-spark-sql"

Estoy probando un ejemplo de función de ventana en spark de este ...

mapreduce pyspark apache-spark spark-dataframe

PySpark Cómo leer CSV en Dataframe y manipularlo

Soy bastante nuevo en pyspark y estoy tratando de usarlo para procesar un gran conjunto de datos que se guarda como un archivo csv. Me gustaría leer el archivo CSV en el marco de datos de chispa, soltar algunas columnas y agregar nuevas columnas. ...

pyspark-sql pyspark apache-spark

1 la respuesta

Consideraciones de seguridad de Spark SQL

¿Cuáles son las consideraciones de seguridad al aceptar y ejecutar consultas SQL arbitrarias de chispa? Imagine la siguiente configuración: Dos archivos en hdfs se registran como tablasa_secrets yb_secrets: # must only be accessed by clients ...

pyspark apache-spark

3 la respuesta

Cómo convertir todas las columnas del marco de datos a cadena

Tengo un marco de datos de tipo mixto. Estoy leyendo este marco de datos de la tabla de la colmena usandospark.sql('select a,b,c from table') mando. Algunas columnas son int, bigint, double y otras son string. Hay 32 columnas en total. ¿Hay ...

apache-spark-ml apache-spark pyspark apache-spark-mllib

2 la respuesta

No se puede convertir el tipo <clase 'pyspark.ml.linalg.SparseVector'> en Vector

Dado mi objeto pyspark Row: >>> row Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})) >>> row.clicked 0 >>> row.features SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}) >>> type(row.features) <class ...

apache-spark scala

2 la respuesta

Spark UDF llamado más de una vez por registro cuando DF tiene demasiadas columnas

Estoy usando Spark 1.6.1 y encuentro un comportamiento extraño: estoy ejecutando un UDF con algunos cálculos pesados (simulaciones físicas) en un marco de datos que contiene algunos datos de entrada, y construyendo un marco de datos de resultados ...

pyspark pyspark-sql apache-spark

1 la respuesta

Spark 2.0: redefiniendo los parámetros de SparkSession a través de GetOrCreate y NO viendo cambios en WebUI

Estoy usando Spark 2.0 con PySpark. Estoy redefiniendoSparkSession parámetros a través de unGetOrCreate Método que se introdujo en 2.0: Este método primero comprueba si hay una SparkSession predeterminada global válida y, en caso afirmativo, ...

scala apache-spark-dataset apache-spark

2 la respuesta

Spark Dataframes- Reducción por clave

Digamos que tengo una estructura de datos como esta donde ts es una marca de tiempo case class Record(ts: Long, id: Int, value: Int)Dado un gran número de estos registros, quiero terminar con el registro con la marca de tiempo más alta para cada ...

apache-spark hive-udf

1 la respuesta

Encuentre la mediana en spark SQL para múltiples columnas de doble tipo de datos

Tengo un requisito para encontrar la mediana para múltiples columnas de doble tipo de datos. Solicite sugerencia para encontrar el enfoque correcto. A continuación se muestra mi conjunto de datos de muestra con una columna. Espero que el valor ...

jdbc apache-spark

4 la respuesta

¿Cuál es el significado de los parámetros de la particiónColumn, lowerBound, upperBound, numPartitions?

Al recuperar datos de SQL Server a través de una conexión JDBC en Spark, descubrí que puedo establecer algunos parámetros de paralelización comopartitionColumn, lowerBound, upperBoundynumPartitions. He pasado por documentación de ...

Página 15 de 52

13 141516 17

Resultados de la búsqueda a petición "apache-spark-sql"

Spark Window Functions requiere HiveContext?

PySpark Cómo leer CSV en Dataframe y manipularlo

Consideraciones de seguridad de Spark SQL

Etiquetas Populares

Cómo convertir todas las columnas del marco de datos a cadena

No se puede convertir el tipo <clase 'pyspark.ml.linalg.SparseVector'> en Vector

Spark UDF llamado más de una vez por registro cuando DF tiene demasiadas columnas

Spark 2.0: redefiniendo los parámetros de SparkSession a través de GetOrCreate y NO viendo cambios en WebUI

Spark Dataframes- Reducción por clave

Encuentre la mediana en spark SQL para múltiples columnas de doble tipo de datos

¿Cuál es el significado de los parámetros de la particiónColumn, lowerBound, upperBound, numPartitions?

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark-sql"

Etiquetas Populares