Resultados de la búsqueda a petición "pyspark"
¿Por qué mi Spark funciona más lento que Python puro? Comparación de rendimiento
Spark novato aquí. Intenté hacer algunas acciones de pandas en mi marco de datos usando Spark, y sorprendentemente es más lento que Python puro (es decir, usando el paquete de pandas en Python). Esto es lo que hice: 1) En ...
¿Cómo puedo particionar los RDD de pyspark con funciones R?
import rpy2.robjects as robjects dffunc = sc.parallelize([(0,robjects.r.rnorm),(1,robjects.r.runif)]) dffunc.collect() Salidas [(0, <rpy2.rinterface.SexpClosure - Python:0x7f2ecfc28618 / R:0x26abd18>), (1, <rpy2.rinterface.SexpClosure - ...
¿Cómo vincular PyCharm con PySpark?
Soy nuevo con apache spark y aparentemente instalé apache-spark con homebrew en mi macbook: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible ...
error de chispa al cargar archivos del comodín S3
Estoy usando el shell pyspark e intento leer datos de S3 usando la función comodín de archivo de spark, pero obtengo el siguiente error: Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 1.2.0 /_/ ...
Cómo calcular la suma acumulativa usando sqlContext
Sé que podemos usarFunción de ventana en pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] para calcular la suma acumulativa. Pero Window solo se admite en HiveContext y no en SQLContext. Necesito ...
Pyspark DataFrame UDF en columna de texto
Estoy tratando de hacer una limpieza de texto NLP de algunas columnas Unicode en un PySpark DataFrame. He intentado en Spark 1.3, 1.5 y 1.6 y parece que no puedo hacer que las cosas funcionen para mí. También he intentado usar Python 2.7 y Python ...
Spark Ejecución de archivo TB en memoria
Supongamos que tengo un archivo de datos Tb. Cada memoria de nodo en el clúster de diez nodos es de 3 GB. Quiero procesar el archivo usando spark. Pero, ¿cómo encaja One TeraByte en la memoria? ¿Se perderá la memoria? ¿Como funciona?
Mientras envía el trabajo con pyspark, ¿cómo acceder a la carga de archivos estáticos con el argumento --files?
Por ejemplo, tengo una carpeta: / - test.py - test.ymly el trabajo se envía al grupo de chispas con: gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py" en eltest.py, Quiero acceder al archivo estático que cargué. with ...
Función Strip o Regex en Spark 1.3 Dataframe
Tengo un código de PySpark 1.5 que desafortunadamente tengo que portar hacia atrás a Spark 1.3. Tengo una columna con elementos que son alfanuméricos pero solo quiero los dígitos. Un ejemplo de los elementos en 'old_col' de 'df' son: '125 ...
Crear DataFrame a partir de la lista de tuplas usando pyspark
Estoy trabajando con datos extraídos de SFDC usando el paquete simple-salesforce. Estoy usando Python3 para scripting y Spark 1.5.2. Creé un rdd que contiene los siguientes datos: [('Id', 'a0w1a0000003xB1A'), ('PackSize', 1.0), ('Name', 'A')] ...