Resultados de la búsqueda a petición "apache-spark"
Zeppelin: Scala Dataframe a Python
Si tengo un párrafo Scala con un DataFrame, ¿puedo compartirlo y usarlo con python? (Según tengo entendido, pyspark usapy4j [https://www.py4j.org/advanced_topics.html#array]) Intenté esto: Párrafo Scala: x.printSchema z.put("xtable", x ...
Filtro de chispa DataFrame en cadena contiene
estoy usandoSpark 1.3.0 [http://spark.apache.org/releases/spark-release-1-3-0.html]ySpark Avro 1.0.0 [https://github.com/databricks/spark-avro/tree/c5612df9b1a9768689fec91655faa2a7073fd9fc#spark-sql-avro-library] . Estoy trabajando desdeel ...
Agregar Jar al pyspark independiente
Estoy lanzando un programa pyspark: $ export SPARK_HOME= $ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip $ pythonY el código py: from pyspark import SparkContext, ...
Cómo clasificar imágenes usando Spark y Caffe
Estoy usando Caffe para hacer la clasificación de imágenes, ¿puedo usar MAC OS X, Pyhton? En este momento sé cómo clasificar una lista de imágenes usando Caffe con Spark python, pero si quiero hacerlo más rápido, quiero usar Spark. Por lo ...
Número de particiones en RDD y rendimiento en Spark
En Pyspark, puedo crear un RDD de una lista y decidir cuántas particiones tener: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)¿Cómo influye en el rendimiento el número de particiones que decido particionar mi RDD? ¿Y cómo depende esto de ...
Filtrar un Pyspark DataFrame con una cláusula IN similar a SQL
Quiero filtrar un Pyspark DataFrame con un SQL comoIN cláusula, como en sc = SparkContext() sqlc = SQLContext(sc) df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')dóndea es la tupla(1, 2, 3). Recibo este error: java.lang.RuntimeException: ...
Envolviendo una función java en pyspark
Estoy tratando de crear una función agregada definida por el usuario a la que pueda llamar desde python. Traté de seguir la respuesta ...
¿Salida de VectorAssembler solo a DenseVector?
Hay algo muy molesto con la función de VectorAssembler. Actualmente estoy transformando un conjunto de columnas en una sola columna de vectores y luego uso la función StandardScaler para aplicar la escala a las características incluidas. Sin ...
Convertir una columna de vector en un marco de datos nuevamente en una columna de matriz
Tengo un marco de datos con dos columnas, una de las cuales (llamada dist) es un vector denso. ¿Cómo puedo convertirlo de nuevo en una columna de enteros? +---+-----+ | id| dist| +---+-----+ |1.0|[2.0]| |2.0|[4.0]| |3.0|[6.0]| |4.0|[8.0]| ...
sobrescribir una salida de chispa usando pyspark
Estoy tratando de sobrescribir un marco de datos Spark usando la siguiente opción en PySpark pero no tengo éxito spark_df.write.format('com.databricks.spark.csv').option("header", "true",mode='overwrite').save(self.output_file_path)el comando ...