Resultados de la búsqueda a petición "pyspark"
Aplicación Spark Kill Running
Tengo una aplicación Spark en ejecución donde ocupa todos los núcleos donde mis otras aplicaciones no recibirán ningún recurso. Hice una investigación rápida y la gente sugirió usar YARN kill o / bin / spark-class para matar el comando. Sin ...
Cómo eliminar columnas en el marco de datos pyspark
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...
enviar script .py en Spark sin instalación de Hadoop
Tengo el siguiente script de Python simple de recuento de palabras. from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc = SparkContext(conf = conf) from operator import add ...
Spark MLlib - train Advertencia explícita
Sigo viendo estas advertencias cuando usotrainImplicit: WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 KB.Y luego el tamaño de la tarea comienza a aumentar. traté de ...
Pyspark py4j PickleException: "argumentos cero esperados para la construcción de ClassDict"
Esta pregunta está dirigida a personas familiarizadas con py4j, y puede ayudar a resolver un error de decapado. Estoy tratando de agregar un método al pyspark PythonMLLibAPI que acepta un RDD de una tupla con nombre, hace algún trabajo y devuelve ...
Obtenga CSV para Spark Dataframe
Estoy usando python en Spark y me gustaría obtener un csv en un marco de datos. losdocumentación [https://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources] para Spark SQL extrañamente no proporciona explicaciones para CSV ...
cambio de nombre de columnas para agregados de marcos de datos pyspark
Estoy analizando algunos datos con los marcos de datos de pyspark, supongamos que tengo un marco de datosdf que estoy agregando: df.groupBy("group")\ .agg({"money":"sum"})\ .show(100)Esto me dará: group SUM(money#2L) A 137461285853 B ...
Usando spark-submit, ¿cuál es el comportamiento de la opción --total-executeor-cores?
Estoy ejecutando un grupo de chispas sobre código C ++ envuelto en python. Actualmente estoy probando diferentes configuraciones de opciones de subprocesos múltiples (a nivel de Python o nivel de Spark). Estoy usando spark con binarios ...
pyspark - Agrupación y cálculo de datos
Tengo el siguiente archivo ...
Reformar / pivotar datos en Spark RDD y / o Spark DataFrames
Tengo algunos datos en el siguiente formato (RDD o Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...