Resultados de la búsqueda a petición "pyspark"

Tengo una aplicación Spark en ejecución donde ocupa todos los núcleos donde mis otras aplicaciones no recibirán ningún recurso. Hice una investigación rápida y la gente sugirió usar YARN kill o / bin / spark-class para matar el comando. Sin ...

apache-spark-sql apache-spark

6 la respuesta

Cómo eliminar columnas en el marco de datos pyspark

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...

apache-spark

1 la respuesta

enviar script .py en Spark sin instalación de Hadoop

Tengo el siguiente script de Python simple de recuento de palabras. from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc = SparkContext(conf = conf) from operator import add ...

python apache-spark apache-spark-mllib

1 la respuesta

Spark MLlib - train Advertencia explícita

Sigo viendo estas advertencias cuando usotrainImplicit: WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 KB.Y luego el tamaño de la tarea comienza a aumentar. traté de ...

py4j apache-spark python

3 la respuesta

Pyspark py4j PickleException: "argumentos cero esperados para la construcción de ClassDict"

Esta pregunta está dirigida a personas familiarizadas con py4j, y puede ayudar a resolver un error de decapado. Estoy tratando de agregar un método al pyspark PythonMLLibAPI que acepta un RDD de una tupla con nombre, hace algún trabajo y devuelve ...

apache-spark

8 la respuesta

Obtenga CSV para Spark Dataframe

Estoy usando python en Spark y me gustaría obtener un csv en un marco de datos. losdocumentación [https://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources] para Spark SQL extrañamente no proporciona explicaciones para CSV ...

dataframe

6 la respuesta

cambio de nombre de columnas para agregados de marcos de datos pyspark

Estoy analizando algunos datos con los marcos de datos de pyspark, supongamos que tengo un marco de datosdf que estoy agregando: df.groupBy("group")\ .agg({"money":"sum"})\ .show(100)Esto me dará: group SUM(money#2L) A 137461285853 B ...

cpu-cores multithreading apache-spark hadoop

2 la respuesta

Usando spark-submit, ¿cuál es el comportamiento de la opción --total-executeor-cores?

Estoy ejecutando un grupo de chispas sobre código C ++ envuelto en python. Actualmente estoy probando diferentes configuraciones de opciones de subprocesos múltiples (a nivel de Python o nivel de Spark). Estoy usando spark con binarios ...

python apache-spark rdd

2 la respuesta

pyspark - Agrupación y cálculo de datos

Tengo el siguiente archivo ...

pivot python apache-spark apache-spark-sql

6 la respuesta

Reformar / pivotar datos en Spark RDD y / o Spark DataFrames

Tengo algunos datos en el siguiente formato (RDD o Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...

Página 27 de 46

25 262728 29

Resultados de la búsqueda a petición "pyspark"

Aplicación Spark Kill Running

Cómo eliminar columnas en el marco de datos pyspark

enviar script .py en Spark sin instalación de Hadoop

Etiquetas Populares

Spark MLlib - train Advertencia explícita

Pyspark py4j PickleException: "argumentos cero esperados para la construcción de ClassDict"

Obtenga CSV para Spark Dataframe

cambio de nombre de columnas para agregados de marcos de datos pyspark

Usando spark-submit, ¿cuál es el comportamiento de la opción --total-executeor-cores?

pyspark - Agrupación y cálculo de datos

Reformar / pivotar datos en Spark RDD y / o Spark DataFrames

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "pyspark"

Etiquetas Populares