Resultados de la búsqueda a petición "pyspark"
pyspark: Convertir DataFrame a RDD [cadena]
Me gustaria convertirpyspark.sql.dataframe.DataFrame apyspark.rdd.RDD[String] Convertí un DataFramedf a RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDel nuevo RDDdata contieneRow first = data.first() type(first) ## pyspark.sql.types.Row ...
_corrupt_record error al leer un archivo JSON en Spark
Tengo este archivo JSON { "a": 1, "b": 2 }que se ha obtenido con el método Python json.dump. Ahora, quiero leer este archivo en un DataFrame en Spark, usando pyspark. Siguiendo la documentación, estoy haciendo esto sc = SparkContext () sqlc = ...
Establecer variables de entorno del código de Python para la chispa
He configurado las variables de entorno en Mac OS para ejecutarpyspark export SPARK_HOME=/Users/devesh/Downloads/spark-1.5.1-bin-hadoop2.6 export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH ...
Manejo de comas dentro de un campo en un archivo csv usando pyspark
Tengo un archivo de datos csv que contiene comas dentro de un valor de columna. Por ejemplo, value_1,value_2,value_3 AAA_A,BBB,B,CCC_CAquí, los valores son "AAA_A", "BBB, B", "CCC_C". Pero, cuando intento dividir la línea por una coma, me da ...
Cómo almacenar en caché un marco de datos de Spark y hacer referencia a él en otro script
¿Es posible almacenar en caché un marco de datos y luego hacer referencia (consultarlo) en otro script? ... Mi objetivo es el siguiente: En el script 1, cree un marco de datos (df)Ejecute el script 1 y la memoria caché dfEn el script 2, consulta ...
Cómo excluir varias columnas en el marco de datos de Spark en Python
Encontré que PySpark tiene un método llamadodrop pero parece que solo puede soltar una columna a la vez. ¿Alguna idea sobre cómo soltar varias columnas al mismo tiempo? df.drop(['col1','col2']) TypeError Traceback (most recent call ...
Zeppelin: Scala Dataframe a Python
Si tengo un párrafo Scala con un DataFrame, ¿puedo compartirlo y usarlo con python? (Según tengo entendido, pyspark usapy4j [https://www.py4j.org/advanced_topics.html#array]) Intenté esto: Párrafo Scala: x.printSchema z.put("xtable", x ...
Cómo clasificar imágenes usando Spark y Caffe
Estoy usando Caffe para hacer la clasificación de imágenes, ¿puedo usar MAC OS X, Pyhton? En este momento sé cómo clasificar una lista de imágenes usando Caffe con Spark python, pero si quiero hacerlo más rápido, quiero usar Spark. Por lo ...
Agregar Jar al pyspark independiente
Estoy lanzando un programa pyspark: $ export SPARK_HOME= $ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip $ pythonY el código py: from pyspark import SparkContext, ...
Número de particiones en RDD y rendimiento en Spark
En Pyspark, puedo crear un RDD de una lista y decidir cuántas particiones tener: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)¿Cómo influye en el rendimiento el número de particiones que decido particionar mi RDD? ¿Y cómo depende esto de ...