Resultados de la búsqueda a petición "pyspark"
Cómo guardar un archivo en el clúster
Estoy conectado al clúster usandossh y envío el programa al clúster usando spark-submit --master yarn myProgram.pyQuiero guardar el resultado en un archivo de texto e intenté usar las siguientes ...
¿Cómo arreglar chispa horriblemente malinterpretando csv?
Tengo dos archivos csv, uno con palabras clave para películas y otro con elenco y equipo. loskeywords.csv el archivo se ve así: $ head -n 3 keywords.csv id,keywords 862,"[{'id': 931, 'name': 'jealousy'}, {'id': 4290, 'name': 'toy'}, {'id': 5202, ...
Error al explotar una columna de estructura en Spark
Tengo un marco de datos cuyo esquema se ve así: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string (nullable = ...
La agrupación de paquetes Python3 para PySpark resulta en importaciones faltantes
Estoy tratando de ejecutar un trabajo de PySpark que depende de ciertas bibliotecas de python3. Sé que puedo instalar estas bibliotecas en el Spark Cluster, pero como estoy reutilizando el clúster para varios trabajos, me gustaría agrupar todas ...
¿Cuál es la diferencia entre spark-submit y pyspark?
Si inicio pyspark y luego ejecuto este comando: import my_script; spark = my_script.Sparker(sc); spark.collapse('./data/')Todo está bien. Sin embargo, si trato de hacer lo mismo a través de la línea de comandos y envío de chispa, aparece un ...
¿Cómo encontrar el valor máximo en el par RDD?
Tengo un par de chispas RDD (clave, cuenta) como a continuación Array[(String, Int)] = Array((a,1), (b,2), (c,1), (d,3))¿Cómo encontrar la clave con el conteo más alto usando la API de spark scala? EDITAR: el tipo de datos del par RDD es ...
Reduzca un par clave-valor en un par clave-lista con Apache Spark
Estoy escribiendo una aplicación Spark y quiero combinar un conjunto de pares clave-valor(K, V1), (K, V2), ..., (K, Vn) en un par clave-valor múltiple(K, [V1, V2, ..., Vn]). Siento que debería poder hacer esto usando elreduceByKey funcionar con ...
¿Cómo agrego una columna a una estructura anidada en un marco de datos pyspark?
Tengo un marco de datos con un esquema como root |-- state: struct (nullable = true) | |-- fld: integer (nullable = true)y me gustaría agregar columnas dentro delstate struct, es decir, crear un marco de datos con un esquema como root |-- ...
¿Qué hace el argumento 'startTime' de la función pyspark.sql.functions.window y window.start?
El ejemplo es el siguiente: df=spark.createDataFrame([ (1,"2017-05-15 23:12:26",2.5), (1,"2017-05-09 15:26:58",3.5), (1,"2017-05-18 15:26:58",3.6), (2,"2017-05-15 15:24:25",4.8), (3,"2017-05-25 ...
collect () o toPandas () en un gran DataFrame en pyspark / EMR
Tengo un clúster EMR de una máquina "c3.8xlarge", después de leer varios recursos, entendí que tengo que permitir una cantidad decente de memoria fuera del montón porque estoy usando pyspark, así que configuré el clúster de la siguiente ...