Resultados de la búsqueda a petición "apache-spark"

Tengo un marco de datos con dos columnas (una cadena y una matriz de cadenas): root |-- user: string (nullable = true) |-- users: array (nullable = true) | |-- element: string (containsNull = true)¿Cómo puedo filtrar el marco de datos para que ...

bigdata scala rdd hdfs

2 la respuesta

¿Cómo puedo guardar un RDD en HDFS y luego volver a leerlo?

Tengo un RDD cuyos elementos son de tipo (Long, String). Por alguna razón, quiero guardar todo el RDD en el HDFS, y luego también leer ese RDD en un programa Spark. ¿Es posible hacer eso? Y si es así, ¿cómo?

apache-spark-sql

1 la respuesta

¿Cuál es una forma eficiente de particionar por columna pero mantener un conteo de partición fijo?

¿Cuál es la mejor manera de particionar los datos por un campo en un recuento de particiones predefinido? Actualmente estoy particionando los datos especificando partionCount = 600. Se encuentra que el conteo 600 ofrece el mejor rendimiento de ...

pyspark-sql windows apache-spark-sql pyspark

1 la respuesta

Spark 2.0: ruta relativa en URI absoluto (almacén de chispas)

Estoy tratando de migrar de Spark 1.6.1 a Spark 2.0.0 y recibo un error extraño al intentar leer un archivo csv en SparkSQL. Anteriormente, cuando leía un archivo del disco local en pyspark, hacía: Spark 1.6 df = sqlContext.read \ ...

scala apache-spark-sql

1 la respuesta

¿Cómo iterar scala wrapArray? (Chispa - chispear)

Realizo las siguientes operaciones: val tempDict = sqlContext.sql("select words.pName_token,collect_set(words.pID) as docids from words group by words.pName_token").toDF() val wordDocs = tempDict.filter(newDict("pName_token")===word) val ...

apache-spark-ml apache-spark-mllib

2 la respuesta

¿Cuál es la diferencia entre los paquetes Spark ML y MLLIB?

Noté que hay dosLinearRegressionModel clases en SparkML, una en ML y otra enMLLib paquete. Estos dos se implementan de manera bastante diferente, p. el deMLLib implementosSerializable, mientras que el otro no. Por cierto, Ame es verdad ...

apache-spark-sql dataframe pyspark

1 la respuesta

Cree un marco de datos en pyspark que contenga una sola columna de tuplas

Tengo un RDD que contiene lo siguiente [('columna 1', valor), ('columna 2', valor), ('columna 3', valor), ..., ('columna 100', valor)]. Quiero crear un marco de datos que contenga una sola columna con tuplas. Lo más cerca que he llegado ...

scala apache-spark-sql

3 la respuesta

Descartar varias columnas del marco de datos de Spark iterando a través de las columnas de una lista Scala de nombres de columna

Tengo un marco de datos que tiene columnas alrededor de 400, quiero soltar 100 columnas según mi requisito. Así que he creado una Lista Scala de 100 nombres de columna. Y luego quiero iterar a través de un bucle for para soltar la columna en cada ...

python pyspark

3 la respuesta

Cómo ejecutar un script en PySpark

Estoy tratando de ejecutar un script en el entorno pyspark pero hasta ahora no he podido. ¿Cómo puedo ejecutar un script como python script.py pero en pyspark? Gracias

scala pyspark apache-spark-mllib apache-spark-sql

2 la respuesta

Asociación de computación FPgrowth en pyspark vs scala

Utilizando : http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html [http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html] Código de Python: from pyspark.mllib.fpm import FPGrowth model = ...

Página 23 de 165

21 222324 25

Resultados de la búsqueda a petición "apache-spark"

Cómo filtrar el marco de datos de Spark si una columna es miembro de otra columna

¿Cómo puedo guardar un RDD en HDFS y luego volver a leerlo?

¿Cuál es una forma eficiente de particionar por columna pero mantener un conteo de partición fijo?

Etiquetas Populares

Spark 2.0: ruta relativa en URI absoluto (almacén de chispas)

¿Cómo iterar scala wrapArray? (Chispa - chispear)

¿Cuál es la diferencia entre los paquetes Spark ML y MLLIB?

Cree un marco de datos en pyspark que contenga una sola columna de tuplas

Descartar varias columnas del marco de datos de Spark iterando a través de las columnas de una lista Scala de nombres de columna

Cómo ejecutar un script en PySpark

Asociación de computación FPgrowth en pyspark vs scala

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares