Resultados de la búsqueda a petición "pyspark"

1 la respuesta

¿Por qué mi Spark funciona más lento que Python puro? Comparación de rendimiento

Spark novato aquí. Intenté hacer algunas acciones de pandas en mi marco de datos usando Spark, y sorprendentemente es más lento que Python puro (es decir, usando el paquete de pandas en Python). Esto es lo que hice: 1) En ...

1 la respuesta

¿Cómo puedo particionar los RDD de pyspark con funciones R?

import rpy2.robjects as robjects dffunc = sc.parallelize([(0,robjects.r.rnorm),(1,robjects.r.runif)]) dffunc.collect() Salidas [(0, <rpy2.rinterface.SexpClosure - Python:0x7f2ecfc28618 / R:0x26abd18>), (1, <rpy2.rinterface.SexpClosure - ...

11 la respuesta

¿Cómo vincular PyCharm con PySpark?

Soy nuevo con apache spark y aparentemente instalé apache-spark con homebrew en mi macbook: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible ...

3 la respuesta

error de chispa al cargar archivos del comodín S3

Estoy usando el shell pyspark e intento leer datos de S3 usando la función comodín de archivo de spark, pero obtengo el siguiente error: Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 1.2.0 /_/ ...

4 la respuesta

Cómo calcular la suma acumulativa usando sqlContext

Sé que podemos usarFunción de ventana en pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] para calcular la suma acumulativa. Pero Window solo se admite en HiveContext y no en SQLContext. Necesito ...

3 la respuesta

Pyspark DataFrame UDF en columna de texto

Estoy tratando de hacer una limpieza de texto NLP de algunas columnas Unicode en un PySpark DataFrame. He intentado en Spark 1.3, 1.5 y 1.6 y parece que no puedo hacer que las cosas funcionen para mí. También he intentado usar Python 2.7 y Python ...

2 la respuesta

Spark Ejecución de archivo TB en memoria

Supongamos que tengo un archivo de datos Tb. Cada memoria de nodo en el clúster de diez nodos es de 3 GB. Quiero procesar el archivo usando spark. Pero, ¿cómo encaja One TeraByte en la memoria? ¿Se perderá la memoria? ¿Como funciona?

3 la respuesta

Mientras envía el trabajo con pyspark, ¿cómo acceder a la carga de archivos estáticos con el argumento --files?

Por ejemplo, tengo una carpeta: / - test.py - test.ymly el trabajo se envía al grupo de chispas con: gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py" en eltest.py, Quiero acceder al archivo estático que cargué. with ...

1 la respuesta

Función Strip o Regex en Spark 1.3 Dataframe

Tengo un código de PySpark 1.5 que desafortunadamente tengo que portar hacia atrás a Spark 1.3. Tengo una columna con elementos que son alfanuméricos pero solo quiero los dígitos. Un ejemplo de los elementos en 'old_col' de 'df' son: '125 ...

1 la respuesta

Crear DataFrame a partir de la lista de tuplas usando pyspark

Estoy trabajando con datos extraídos de SFDC usando el paquete simple-salesforce. Estoy usando Python3 para scripting y Spark 1.5.2. Creé un rdd que contiene los siguientes datos: [('Id', 'a0w1a0000003xB1A'), ('PackSize', 1.0), ('Name', 'A')] ...