Resultados de la búsqueda a petición "pyspark"
¿Cómo puedo obtener el índice invertido?
Estoy usando Spark. ¿Cómo puedo obtener un índice invertido para el archivo csv usando Spark? Tengo un archivo csv df.show() +--------+--------------------+--------------------+----------+ | id| title| ...
usando pyspark, lee / escribe imágenes 2D en el sistema de archivos hadoop
Quiero poder leer / escribir imágenes en un sistema de archivos hdfs y aprovechar la localidad hdfs. Tengo una colección de imágenes donde cada imagen está compuesta de Matrices 2D de uint16información adicional básica almacenada como un ...
obtener el número de nodos visibles en PySpark
Estoy ejecutando algunas operaciones en PySpark, y recientemente aumenté el número de nodos en mi configuración (que está en Amazon EMR). Sin embargo, aunque tripliqué el número de nodos (de 4 a 12), el rendimiento parece no haber cambiado. Como ...
Cómo establecer valores de configuración de hadoop desde pyspark
La versión Scala de SparkContext tiene la propiedad sc.hadoopConfigurationLo he usado con éxito para configurar las propiedades de Hadoop (en Scala) p.ej. sc.hadoopConfiguration.set("my.mapreduce.setting","someVal")Sin embargo, la versión de ...
Cargar archivo CSV con Spark
Soy nuevo en Spark e intento leer datos CSV de un archivo con Spark. Esto es lo que estoy haciendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect()Esperaría que esta llamada me dé una lista de ...
Actualización de una columna de marco de datos en chispa
Mirando la nueva API de marco de datos de chispa, no está claro si es posible modificar las columnas del marco de datos. ¿Cómo haría para cambiar un valor en fila?x columnay de un marco de datos? Enpandas esto seríadf.ix[x,y] = ...
escalabilidad de chispa: ¿qué estoy haciendo mal?
Estoy procesando datos con chispa y funciona con un día de datos (40G) pero falla conOOMen una semana de datos: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc = pyspark.sql.SQLContext(sc) ...
¿Cómo agrupar por múltiples teclas en spark?
Tengo un montón de tuplas que están en forma de claves y valores compuestos. Por ejemplo, tfile.collect() = [(('id1','pd1','t1'),5.0), (('id2','pd2','t2'),6.0), (('id1','pd1','t2'),7.5), (('id1','pd1','t3'),8.1) ]Quiero realizar operaciones tipo ...
pyspark: dependencia de envío de jar con spark-submit
Escribí un script pyspark que lee dos archivos json,coGroup ellos y envía el resultado a un grupo de búsqueda elástica; todo funciona (principalmente) como se esperaba cuando lo ejecuto localmente, descargué elelasticsearch-hadoop archivo jar ...
Especificar opciones para la jvm lanzada por pyspark
¿Cómo / dónde están las opciones jvm utilizadas por el script pyspark al iniciar el jvm al que se conecta? Estoy específicamente interesado en especificar las opciones de depuración de jvm, ...