Resultados de la búsqueda a petición "pyspark"

1 la respuesta

¿Cómo puedo obtener el índice invertido?

Estoy usando Spark. ¿Cómo puedo obtener un índice invertido para el archivo csv usando Spark? Tengo un archivo csv df.show() +--------+--------------------+--------------------+----------+ | id| title| ...

1 la respuesta

usando pyspark, lee / escribe imágenes 2D en el sistema de archivos hadoop

Quiero poder leer / escribir imágenes en un sistema de archivos hdfs y aprovechar la localidad hdfs. Tengo una colección de imágenes donde cada imagen está compuesta de Matrices 2D de uint16información adicional básica almacenada como un ...

5 la respuesta

obtener el número de nodos visibles en PySpark

Estoy ejecutando algunas operaciones en PySpark, y recientemente aumenté el número de nodos en mi configuración (que está en Amazon EMR). Sin embargo, aunque tripliqué el número de nodos (de 4 a 12), el rendimiento parece no haber cambiado. Como ...

3 la respuesta

Cómo establecer valores de configuración de hadoop desde pyspark

La versión Scala de SparkContext tiene la propiedad sc.hadoopConfigurationLo he usado con éxito para configurar las propiedades de Hadoop (en Scala) p.ej. sc.hadoopConfiguration.set("my.mapreduce.setting","someVal")Sin embargo, la versión de ...

11 la respuesta

Cargar archivo CSV con Spark

Soy nuevo en Spark e intento leer datos CSV de un archivo con Spark. Esto es lo que estoy haciendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect()Esperaría que esta llamada me dé una lista de ...

4 la respuesta

Actualización de una columna de marco de datos en chispa

Mirando la nueva API de marco de datos de chispa, no está claro si es posible modificar las columnas del marco de datos. ¿Cómo haría para cambiar un valor en fila?x columnay de un marco de datos? Enpandas esto seríadf.ix[x,y] = ...

2 la respuesta

escalabilidad de chispa: ¿qué estoy haciendo mal?

Estoy procesando datos con chispa y funciona con un día de datos (40G) pero falla conOOMen una semana de datos: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc = pyspark.sql.SQLContext(sc) ...

2 la respuesta

¿Cómo agrupar por múltiples teclas en spark?

Tengo un montón de tuplas que están en forma de claves y valores compuestos. Por ejemplo, tfile.collect() = [(('id1','pd1','t1'),5.0), (('id2','pd2','t2'),6.0), (('id1','pd1','t2'),7.5), (('id1','pd1','t3'),8.1) ]Quiero realizar operaciones tipo ...

1 la respuesta

pyspark: dependencia de envío de jar con spark-submit

Escribí un script pyspark que lee dos archivos json,coGroup ellos y envía el resultado a un grupo de búsqueda elástica; todo funciona (principalmente) como se esperaba cuando lo ejecuto localmente, descargué elelasticsearch-hadoop archivo jar ...

1 la respuesta

Especificar opciones para la jvm lanzada por pyspark

¿Cómo / dónde están las opciones jvm utilizadas por el script pyspark al iniciar el jvm al que se conecta? Estoy específicamente interesado en especificar las opciones de depuración de jvm, ...