Resultados de la búsqueda a petición "pyspark"

Estoy usando Spark. ¿Cómo puedo obtener un índice invertido para el archivo csv usando Spark? Tengo un archivo csv df.show() +--------+--------------------+--------------------+----------+ | id| title| ...

sequencefile apache-spark hadoop

1 la respuesta

usando pyspark, lee / escribe imágenes 2D en el sistema de archivos hadoop

Quiero poder leer / escribir imágenes en un sistema de archivos hdfs y aprovechar la localidad hdfs. Tengo una colección de imágenes donde cada imagen está compuesta de Matrices 2D de uint16información adicional básica almacenada como un ...

apache-spark python-2.7

5 la respuesta

obtener el número de nodos visibles en PySpark

Estoy ejecutando algunas operaciones en PySpark, y recientemente aumenté el número de nodos en mi configuración (que está en Amazon EMR). Sin embargo, aunque tripliqué el número de nodos (de 4 a 12), el rendimiento parece no haber cambiado. Como ...

apache-spark scala

3 la respuesta

Cómo establecer valores de configuración de hadoop desde pyspark

La versión Scala de SparkContext tiene la propiedad sc.hadoopConfigurationLo he usado con éxito para configurar las propiedades de Hadoop (en Scala) p.ej. sc.hadoopConfiguration.set("my.mapreduce.setting","someVal")Sin embargo, la versión de ...

python csv apache-spark

11 la respuesta

Cargar archivo CSV con Spark

Soy nuevo en Spark e intento leer datos CSV de un archivo con Spark. Esto es lo que estoy haciendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect()Esperaría que esta llamada me dé una lista de ...

python apache-spark apache-spark-sql spark-dataframe

4 la respuesta

Actualización de una columna de marco de datos en chispa

Mirando la nueva API de marco de datos de chispa, no está claro si es posible modificar las columnas del marco de datos. ¿Cómo haría para cambiar un valor en fila?x columnay de un marco de datos? Enpandas esto seríadf.ix[x,y] = ...

bigdata distributed-computing apache-spark scalability

2 la respuesta

escalabilidad de chispa: ¿qué estoy haciendo mal?

Estoy procesando datos con chispa y funciona con un día de datos (40G) pero falla conOOMen una semana de datos: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc = pyspark.sql.SQLContext(sc) ...

apache-spark python

2 la respuesta

¿Cómo agrupar por múltiples teclas en spark?

Tengo un montón de tuplas que están en forma de claves y valores compuestos. Por ejemplo, tfile.collect() = [(('id1','pd1','t1'),5.0), (('id2','pd2','t2'),6.0), (('id1','pd1','t2'),7.5), (('id1','pd1','t3'),8.1) ]Quiero realizar operaciones tipo ...

elasticsearch apache-spark python

1 la respuesta

pyspark: dependencia de envío de jar con spark-submit

Escribí un script pyspark que lee dos archivos json,coGroup ellos y envía el resultado a un grupo de búsqueda elástica; todo funciona (principalmente) como se esperaba cuando lo ejecuto localmente, descargué elelasticsearch-hadoop archivo jar ...

jvm-arguments apache-spark

1 la respuesta

Especificar opciones para la jvm lanzada por pyspark

¿Cómo / dónde están las opciones jvm utilizadas por el script pyspark al iniciar el jvm al que se conecta? Estoy específicamente interesado en especificar las opciones de depuración de jvm, ...

Página 26 de 46

24 252627 28

Resultados de la búsqueda a petición "pyspark"

¿Cómo puedo obtener el índice invertido?

usando pyspark, lee / escribe imágenes 2D en el sistema de archivos hadoop

obtener el número de nodos visibles en PySpark

Etiquetas Populares

Cómo establecer valores de configuración de hadoop desde pyspark

Cargar archivo CSV con Spark

Actualización de una columna de marco de datos en chispa

escalabilidad de chispa: ¿qué estoy haciendo mal?

¿Cómo agrupar por múltiples teclas en spark?

pyspark: dependencia de envío de jar con spark-submit

Especificar opciones para la jvm lanzada por pyspark

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "pyspark"

Etiquetas Populares