Resultados de la búsqueda a petición "apache-spark-sql"

Realizo las siguientes operaciones: val tempDict = sqlContext.sql("select words.pName_token,collect_set(words.pID) as docids from words group by words.pName_token").toDF() val wordDocs = tempDict.filter(newDict("pName_token")===word) val ...

apache-spark dataframe pyspark

1 la respuesta

Cree un marco de datos en pyspark que contenga una sola columna de tuplas

Tengo un RDD que contiene lo siguiente [('columna 1', valor), ('columna 2', valor), ('columna 3', valor), ..., ('columna 100', valor)]. Quiero crear un marco de datos que contenga una sola columna con tuplas. Lo más cerca que he llegado ...

scala apache-spark

3 la respuesta

Descartar varias columnas del marco de datos de Spark iterando a través de las columnas de una lista Scala de nombres de columna

Tengo un marco de datos que tiene columnas alrededor de 400, quiero soltar 100 columnas según mi requisito. Así que he creado una Lista Scala de 100 nombres de columna. Y luego quiero iterar a través de un bucle for para soltar la columna en cada ...

scala apache-spark pyspark apache-spark-mllib

2 la respuesta

Asociación de computación FPgrowth en pyspark vs scala

Utilizando : http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html [http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html] Código de Python: from pyspark.mllib.fpm import FPGrowth model = ...

apache-spark-ml dataframe pyspark apache-spark

1 la respuesta

¿Cómo acceder al elemento de una columna VectorUDT en un Spark DataFrame?

Tengo un marco de datosdf con unVectorUDT columna llamadafeatures. ¿Cómo obtengo un elemento de la columna, digamos primer elemento? He intentado hacer lo siguiente from pyspark.sql.functions import udf first_elem_udf = udf(lambda ...

pyspark python apache-spark

2 la respuesta

Equivalente de chispas de IF y luego ELSE

He visto esta pregunta anteriormente aquí y he tomado lecciones de eso. Sin embargo, no estoy seguro de por qué recibo un error cuando siento que debería funcionar. Quiero crear una nueva columna en Spark existenteDataFrame por algunas ...

pyspark apache-spark python

1 la respuesta

Archivo de configuración para definir la estructura del esquema JSON en PySpark

He creado una aplicación PySpark que lee el archivo JSON en un marco de datos a través de un esquema definido. ejemplo de código a continuación schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), ...

apache-spark pyspark python hbase

1 la respuesta

¿Cómo conectar HBase y Spark usando Python?

Tengo una tarea vergonzosamente paralela para la cual uso Spark para distribuir los cálculos. Estos cálculos están en Python, y uso PySpark para leer y preprocesar los datos. Los datos de entrada a mi tarea se almacenan en ...

apache-spark performance scala rdd

1 la respuesta

Impacto en el rendimiento de la API RDD frente a las UDF combinadas con la API DataFrame

(Pregunta específica de Scala). Si bien los documentos de Spark fomentan el uso de DataFrame API cuando sea posible, si DataFrame API es insuficiente, la opción suele ser recurrir a RDD API o usar UDF. ¿Existe una diferencia de rendimiento ...

scala apache-spark

5 la respuesta

¿Cómo cortar y sumar elementos de la columna de matriz?

me gustaríasum (o realizar otras funciones agregadas también) en la columna de matriz usando SparkSQL. Tengo una mesa como +-------+-------+---------------------------------+ |dept_id|dept_nm| emp_details| ...

Página 8 de 52

6 789 10

Resultados de la búsqueda a petición "apache-spark-sql"

¿Cómo iterar scala wrapArray? (Chispa - chispear)

Cree un marco de datos en pyspark que contenga una sola columna de tuplas

Descartar varias columnas del marco de datos de Spark iterando a través de las columnas de una lista Scala de nombres de columna

Etiquetas Populares

Asociación de computación FPgrowth en pyspark vs scala

¿Cómo acceder al elemento de una columna VectorUDT en un Spark DataFrame?

Equivalente de chispas de IF y luego ELSE

Archivo de configuración para definir la estructura del esquema JSON en PySpark

¿Cómo conectar HBase y Spark usando Python?

Impacto en el rendimiento de la API RDD frente a las UDF combinadas con la API DataFrame

¿Cómo cortar y sumar elementos de la columna de matriz?

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark-sql"

Etiquetas Populares