Resultados de la búsqueda a petición "apache-spark"
Cómo filtrar el marco de datos de Spark si una columna es miembro de otra columna
Tengo un marco de datos con dos columnas (una cadena y una matriz de cadenas): root |-- user: string (nullable = true) |-- users: array (nullable = true) | |-- element: string (containsNull = true)¿Cómo puedo filtrar el marco de datos para que ...
¿Cómo puedo guardar un RDD en HDFS y luego volver a leerlo?
Tengo un RDD cuyos elementos son de tipo (Long, String). Por alguna razón, quiero guardar todo el RDD en el HDFS, y luego también leer ese RDD en un programa Spark. ¿Es posible hacer eso? Y si es así, ¿cómo?
¿Cuál es una forma eficiente de particionar por columna pero mantener un conteo de partición fijo?
¿Cuál es la mejor manera de particionar los datos por un campo en un recuento de particiones predefinido? Actualmente estoy particionando los datos especificando partionCount = 600. Se encuentra que el conteo 600 ofrece el mejor rendimiento de ...
Spark 2.0: ruta relativa en URI absoluto (almacén de chispas)
Estoy tratando de migrar de Spark 1.6.1 a Spark 2.0.0 y recibo un error extraño al intentar leer un archivo csv en SparkSQL. Anteriormente, cuando leía un archivo del disco local en pyspark, hacía: Spark 1.6 df = sqlContext.read \ ...
¿Cómo iterar scala wrapArray? (Chispa - chispear)
Realizo las siguientes operaciones: val tempDict = sqlContext.sql("select words.pName_token,collect_set(words.pID) as docids from words group by words.pName_token").toDF() val wordDocs = tempDict.filter(newDict("pName_token")===word) val ...
¿Cuál es la diferencia entre los paquetes Spark ML y MLLIB?
Noté que hay dosLinearRegressionModel clases en SparkML, una en ML y otra enMLLib paquete. Estos dos se implementan de manera bastante diferente, p. el deMLLib implementosSerializable, mientras que el otro no. Por cierto, Ame es verdad ...
Cree un marco de datos en pyspark que contenga una sola columna de tuplas
Tengo un RDD que contiene lo siguiente [('columna 1', valor), ('columna 2', valor), ('columna 3', valor), ..., ('columna 100', valor)]. Quiero crear un marco de datos que contenga una sola columna con tuplas. Lo más cerca que he llegado ...
Descartar varias columnas del marco de datos de Spark iterando a través de las columnas de una lista Scala de nombres de columna
Tengo un marco de datos que tiene columnas alrededor de 400, quiero soltar 100 columnas según mi requisito. Así que he creado una Lista Scala de 100 nombres de columna. Y luego quiero iterar a través de un bucle for para soltar la columna en cada ...
Cómo ejecutar un script en PySpark
Estoy tratando de ejecutar un script en el entorno pyspark pero hasta ahora no he podido. ¿Cómo puedo ejecutar un script como python script.py pero en pyspark? Gracias
Asociación de computación FPgrowth en pyspark vs scala
Utilizando : http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html [http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html] Código de Python: from pyspark.mllib.fpm import FPGrowth model = ...