Resultados de la búsqueda a petición "pyspark"

2 la respuesta

Aplicación Spark Kill Running

Tengo una aplicación Spark en ejecución donde ocupa todos los núcleos donde mis otras aplicaciones no recibirán ningún recurso. Hice una investigación rápida y la gente sugirió usar YARN kill o / bin / spark-class para matar el comando. Sin ...

6 la respuesta

Cómo eliminar columnas en el marco de datos pyspark

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...

1 la respuesta

enviar script .py en Spark sin instalación de Hadoop

Tengo el siguiente script de Python simple de recuento de palabras. from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc = SparkContext(conf = conf) from operator import add ...

1 la respuesta

Spark MLlib - train Advertencia explícita

Sigo viendo estas advertencias cuando usotrainImplicit: WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 KB.Y luego el tamaño de la tarea comienza a aumentar. traté de ...

3 la respuesta

Pyspark py4j PickleException: "argumentos cero esperados para la construcción de ClassDict"

Esta pregunta está dirigida a personas familiarizadas con py4j, y puede ayudar a resolver un error de decapado. Estoy tratando de agregar un método al pyspark PythonMLLibAPI que acepta un RDD de una tupla con nombre, hace algún trabajo y devuelve ...

8 la respuesta

Obtenga CSV para Spark Dataframe

Estoy usando python en Spark y me gustaría obtener un csv en un marco de datos. losdocumentación [https://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources] para Spark SQL extrañamente no proporciona explicaciones para CSV ...

6 la respuesta

cambio de nombre de columnas para agregados de marcos de datos pyspark

Estoy analizando algunos datos con los marcos de datos de pyspark, supongamos que tengo un marco de datosdf que estoy agregando: df.groupBy("group")\ .agg({"money":"sum"})\ .show(100)Esto me dará: group SUM(money#2L) A 137461285853 B ...

2 la respuesta

Usando spark-submit, ¿cuál es el comportamiento de la opción --total-executeor-cores?

Estoy ejecutando un grupo de chispas sobre código C ++ envuelto en python. Actualmente estoy probando diferentes configuraciones de opciones de subprocesos múltiples (a nivel de Python o nivel de Spark). Estoy usando spark con binarios ...

2 la respuesta

pyspark - Agrupación y cálculo de datos

Tengo el siguiente archivo ...

6 la respuesta

Reformar / pivotar datos en Spark RDD y / o Spark DataFrames

Tengo algunos datos en el siguiente formato (RDD o Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...