Resultados de la búsqueda a petición "pyspark"

1 la respuesta

pyspark: Convertir DataFrame a RDD [cadena]

Me gustaria convertirpyspark.sql.dataframe.DataFrame apyspark.rdd.RDD[String] Convertí un DataFramedf a RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDel nuevo RDDdata contieneRow first = data.first() type(first) ## pyspark.sql.types.Row ...

4 la respuesta

_corrupt_record error al leer un archivo JSON en Spark

Tengo este archivo JSON { "a": 1, "b": 2 }que se ha obtenido con el método Python json.dump. Ahora, quiero leer este archivo en un DataFrame en Spark, usando pyspark. Siguiendo la documentación, estoy haciendo esto sc = SparkContext () sqlc = ...

1 la respuesta

Establecer variables de entorno del código de Python para la chispa

He configurado las variables de entorno en Mac OS para ejecutarpyspark export SPARK_HOME=/Users/devesh/Downloads/spark-1.5.1-bin-hadoop2.6 export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH ...

3 la respuesta

Manejo de comas dentro de un campo en un archivo csv usando pyspark

Tengo un archivo de datos csv que contiene comas dentro de un valor de columna. Por ejemplo, value_1,value_2,value_3 AAA_A,BBB,B,CCC_CAquí, los valores son "AAA_A", "BBB, B", "CCC_C". Pero, cuando intento dividir la línea por una coma, me da ...

2 la respuesta

Cómo almacenar en caché un marco de datos de Spark y hacer referencia a él en otro script

¿Es posible almacenar en caché un marco de datos y luego hacer referencia (consultarlo) en otro script? ... Mi objetivo es el siguiente: En el script 1, cree un marco de datos (df)Ejecute el script 1 y la memoria caché dfEn el script 2, consulta ...

2 la respuesta

Cómo excluir varias columnas en el marco de datos de Spark en Python

Encontré que PySpark tiene un método llamadodrop pero parece que solo puede soltar una columna a la vez. ¿Alguna idea sobre cómo soltar varias columnas al mismo tiempo? df.drop(['col1','col2']) TypeError Traceback (most recent call ...

1 la respuesta

Zeppelin: Scala Dataframe a Python

Si tengo un párrafo Scala con un DataFrame, ¿puedo compartirlo y usarlo con python? (Según tengo entendido, pyspark usapy4j [https://www.py4j.org/advanced_topics.html#array]) Intenté esto: Párrafo Scala: x.printSchema z.put("xtable", x ...

1 la respuesta

Cómo clasificar imágenes usando Spark y Caffe

Estoy usando Caffe para hacer la clasificación de imágenes, ¿puedo usar MAC OS X, Pyhton? En este momento sé cómo clasificar una lista de imágenes usando Caffe con Spark python, pero si quiero hacerlo más rápido, quiero usar Spark. Por lo ...

5 la respuesta

Agregar Jar al pyspark independiente

Estoy lanzando un programa pyspark: $ export SPARK_HOME= $ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip $ pythonY el código py: from pyspark import SparkContext, ...

2 la respuesta

Número de particiones en RDD y rendimiento en Spark

En Pyspark, puedo crear un RDD de una lista y decidir cuántas particiones tener: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)¿Cómo influye en el rendimiento el número de particiones que decido particionar mi RDD? ¿Y cómo depende esto de ...