Resultados de la búsqueda a petición "spark-dataframe"

1 la respuesta

¿Por qué Apache-Spark - Python es tan lento localmente en comparación con los pandas?

Un novato chispa aquí. Recientemente comencé a jugar con la chispa en mi máquina local en dos núcleos usando el comando. pyspark - maestro local [2] Tengo un archivo de texto de 393 Mb que tiene casi un millón de filas. Quería realizar alguna ...

1 la respuesta

Obteniendo valores distintos en una columna usando Spark DataFrame

Al usar la versión 1.6.1 de Spark, necesito obtener valores distintos en una columna y luego realizar alguna transformación específica encima. La columna contiene más de 50 millones de registros y puede crecer más. Entiendo que hacer ...

2 la respuesta

Cómo lanzar un WrappedArray [WrappedArray [Float]] a Array [Array [Float]] en spark (scala)

Estoy usando Spark 2.0. Tengo una columna de mi marco de datos que contiene unWrappedArray de Wrapped Arrays of Float. Un ejemplo de una fila sería: [[1.0 2.0 2.0][6.0 5.0 2.0][4.0 2.0 3.0]]Estoy tratando de transformar esta columna en ...

5 la respuesta

Spark DataFrame: ¿groupBy after orderBy mantiene ese orden?

Tengo un marco de datos Spark 2.0example con la siguiente estructura: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc.Contiene 24 entradas para cada id (una para cada hora del día) y se ordena por ...

3 la respuesta

Spark: Agregar columna al marco de datos condicionalmente

Estoy tratando de tomar mis datos de entrada: A B C -------------- 4 blah 2 2 3 56 foo 3Y agregue una columna al final según si B está vacío o no: A B C D -------------------- 4 blah 2 1 2 3 0 56 foo 3 1Puedo hacer esto fácilmente registrando ...

2 la respuesta

Cómo obligar a Spark a evaluar las operaciones de DataFrame en línea

De acuerdo con laSpark RDD docs [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas las transformaciones en Spark son perezosas, ya que no calculan sus resultados de inmediato ... Este diseño permite que Spark se ...

1 la respuesta

¿Cómo desactivar la notación científica en pyspark?

Como resultado de alguna agregación, se me ocurrió el siguiente cuadro de chispa: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | ...

2 la respuesta

¿Cómo reemplazar los valores vacíos en una columna de DataFrame?

¿Cómo puedo reemplazar los valores vacíos en una columnaField1 de DataFramedf? Field1 Field2 AA 12 BB Este comando no proporciona un resultado esperado: df.na.fill("Field1",Seq("Anonymous"))El resultado esperado: Field1 Field2 Anonymous AA 12 BB

0 la respuesta

Cómo "reducir" múltiples tablas json almacenadas en una columna de un RDD a una sola tabla RDD de la manera más eficiente posible

¿El acceso concurrente para agregar filas usando la unión en un marco de datos usando el siguiente código funcionará correctamente? Actualmente muestra error de tipo from pyspark.sql.types import * schema = StructType([ ...

1 la respuesta

Spark Dataframe: generar una matriz de tuplas a partir de un tipo de mapa

Mi fuente aguas abajo no admite un tipo de Mapa y mi fuente sí y, como tal, lo envía. Necesito convertir este mapa en una matriz de estructura (tupla). Scala admite Map.toArray, que crea una matriz de tuplas para usted, que parece ser la función ...