Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

¿Cómo iterar scala wrapArray? (Chispa - chispear)

Realizo las siguientes operaciones: val tempDict = sqlContext.sql("select words.pName_token,collect_set(words.pID) as docids from words group by words.pName_token").toDF() val wordDocs = tempDict.filter(newDict("pName_token")===word) val ...

1 la respuesta

Cree un marco de datos en pyspark que contenga una sola columna de tuplas

Tengo un RDD que contiene lo siguiente [('columna 1', valor), ('columna 2', valor), ('columna 3', valor), ..., ('columna 100', valor)]. Quiero crear un marco de datos que contenga una sola columna con tuplas. Lo más cerca que he llegado ...

3 la respuesta

Descartar varias columnas del marco de datos de Spark iterando a través de las columnas de una lista Scala de nombres de columna

Tengo un marco de datos que tiene columnas alrededor de 400, quiero soltar 100 columnas según mi requisito. Así que he creado una Lista Scala de 100 nombres de columna. Y luego quiero iterar a través de un bucle for para soltar la columna en cada ...

2 la respuesta

Asociación de computación FPgrowth en pyspark vs scala

Utilizando : http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html [http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html] Código de Python: from pyspark.mllib.fpm import FPGrowth model = ...

1 la respuesta

¿Cómo acceder al elemento de una columna VectorUDT en un Spark DataFrame?

Tengo un marco de datosdf con unVectorUDT columna llamadafeatures. ¿Cómo obtengo un elemento de la columna, digamos primer elemento? He intentado hacer lo siguiente from pyspark.sql.functions import udf first_elem_udf = udf(lambda ...

2 la respuesta

Equivalente de chispas de IF y luego ELSE

He visto esta pregunta anteriormente aquí y he tomado lecciones de eso. Sin embargo, no estoy seguro de por qué recibo un error cuando siento que debería funcionar. Quiero crear una nueva columna en Spark existenteDataFrame por algunas ...

1 la respuesta

Archivo de configuración para definir la estructura del esquema JSON en PySpark

He creado una aplicación PySpark que lee el archivo JSON en un marco de datos a través de un esquema definido. ejemplo de código a continuación schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), ...

1 la respuesta

¿Cómo conectar HBase y Spark usando Python?

Tengo una tarea vergonzosamente paralela para la cual uso Spark para distribuir los cálculos. Estos cálculos están en Python, y uso PySpark para leer y preprocesar los datos. Los datos de entrada a mi tarea se almacenan en ...

1 la respuesta

Impacto en el rendimiento de la API RDD frente a las UDF combinadas con la API DataFrame

(Pregunta específica de Scala). Si bien los documentos de Spark fomentan el uso de DataFrame API cuando sea posible, si DataFrame API es insuficiente, la opción suele ser recurrir a RDD API o usar UDF. ¿Existe una diferencia de rendimiento ...

5 la respuesta

¿Cómo cortar y sumar elementos de la columna de matriz?

me gustaríasum (o realizar otras funciones agregadas también) en la columna de matriz usando SparkSQL. Tengo una mesa como +-------+-------+---------------------------------+ |dept_id|dept_nm| emp_details| ...