Resultados de la búsqueda a petición "apache-spark"
Actualización de una columna de marco de datos en chispa
Mirando la nueva API de marco de datos de chispa, no está claro si es posible modificar las columnas del marco de datos. ¿Cómo haría para cambiar un valor en fila?x columnay de un marco de datos? Enpandas esto seríadf.ix[x,y] = ...
¿Cómo puedo crear un Spark DataFrame a partir de una matriz anidada de elemento struct?
He leído un archivo JSON en Spark. Este archivo tiene la siguiente estructura: scala> tweetBlob.printSchema root |-- related: struct (nullable = true) | |-- next: struct (nullable = true) | | |-- href: string (nullable = true) |-- search: struct ...
¿Cómo puedo obtener el índice invertido?
Estoy usando Spark. ¿Cómo puedo obtener un índice invertido para el archivo csv usando Spark? Tengo un archivo csv df.show() +--------+--------------------+--------------------+----------+ | id| title| ...
cómo convertir una cadena json a un marco de datos en spark
Quiero convertir la variable de cadena a continuación en el marco de datos en spark. val jsonStr = "{ "metadata": { "key": 84896, "value": 54 }}"Sé cómo crear un marco de datos desde un archivo json. sqlContext.read.json("file.json")pero no sé ...
Spark rdd escribir en la lista global
¿Cómo escribir en una lista global con rdd? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Cuando intento imprimir Li, el resultado es: [] Lo que intento hacer es transformar otra escucha global Li1 mientras ...
Filtrar un Pyspark DataFrame con una cláusula IN similar a SQL
Quiero filtrar un Pyspark DataFrame con un SQL comoIN cláusula, como en sc = SparkContext() sqlc = SQLContext(sc) df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')dóndea es la tupla(1, 2, 3). Recibo este error: java.lang.RuntimeException: ...
¿Cómo convierto un RDD con una columna SparseVector en un DataFrame con una columna como Vector?
Yo tengo unRDDcon una tupla de valores (String, SparseVector) y quiero crear un Marco de datosutilizando laRDD. Para obtener una (etiqueta: cadena, características: vector)Marco de datoscual es el esquema requerido por la mayoría de las ...
leer todos los archivos de HDFS de forma recursiva en spark java api
Estoy usando spark para leer datos de todos los archivos de HDFS en un único RDD desde un directorio y también sus subdirectorios. No pude encontrar ningún método eficiente para hacer eso. Así que intenté escribir un código personalizado como se ...
Spark UDAF con ArrayType como problemas de rendimiento de bufferSchema
Estoy trabajando en un UDAF que devuelve una variedad de elementos. La entrada para cada actualización es una tupla de índice y valor. Lo que hace el UDAF es sumar todos los valores bajo el mismo índice. Ejemplo: Para entrada (índice, valor): ...
¿Dataframe.show () es una acción en chispa?
Tengo el siguiente código: val df_in = sqlcontext.read.json(jsonFile) // the file resides in hdfs //some operations in here to create df as df_in with two more columns "terms1" and "terms2" val intersectUDF = udf( (seq1:Seq[String], ...