Resultados de la búsqueda a petición "pyspark"

Me gustaría agregar una cadena a una columna existente. Por ejemplo,df['col1'] tiene valores como'1', '2', '3' etc. y me gustaría concat string'000' a la izquierda decol1 para que pueda obtener una columna (nueva o reemplazar la anterior no ...

python apache-spark memory jupyter

7 la respuesta

Spark 1.4 aumenta la memoria maxResultSize

Estoy usando Spark 1.4 para mi investigación y estoy luchando con la configuración de memoria. Mi máquina tiene 16 GB de memoria, así que no hay problema, ya que el tamaño de mi archivo es de solo 300 MB. Sin embargo, cuando intento convertir ...

pandas

3 la respuesta

Plano de pyspark en pandas

¿Hay una operación en pandas que haga lo mismo quemapa plano [http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.flatMap] en pyspark? Ejemplo de flatMap: >>> rdd = sc.parallelize([2, 3, 4]) >>> sorted(rdd.flatMap(lambda x: ...

apache-spark python

2 la respuesta

eliminar duplicados de un marco de datos en pyspark

Estoy jugando con los marcos de datos en pyspark 1.4 localmente y tengo problemas para que el método de duplicados de caída funcione. Sigue devolviendo el error "AttributeError: el objeto 'list' no tiene el atributo 'dropDuplicates'". No estoy ...

python rdd apache-spark

1 la respuesta

PySpark - Superposición de tiempo para objeto en RDD

Mi objetivo es agrupar objetos en función de la superposición de tiempo. Cada objeto en mirdd contiene unastart_time yend_time. Probablemente estoy haciendo esto de manera ineficiente, pero lo que planeo hacer es asignar una identificación de ...

python apache-spark

1 la respuesta

Crear estructura de datos de chispa a partir de registros multilínea

Estoy tratando de leer en el archivo de eventos retrosheet en chispa. El archivo de eventos está estructurado como tal. id,TEX201403310 version,2 info,visteam,PHI info,hometeam,TEX info,site,ARL02 info,date,2014/03/31 info,number,0 ...

apache-spark apache-spark-mllib python

1 la respuesta

¿Cómo agruparByKey un RDD, con DenseVector como clave, en Spark?

He creado un RDD con cada miembro como un par de valores clave con la clave como unDenseVector y valorar ser unint. p.ej. [(DenseVector([3,4]),10), (DenseVector([3,4]),20)]Ahora quiero agrupar por la clavek1: DenseVector([3,4]). Espero que el ...

median rdd python apache-spark

4 la respuesta

Cómo encontrar medianas y cuantiles usando Spark

¿Cómo puedo encontrar la mediana de unRDD de enteros que utilizan un método distribuido, IPython y Spark? losRDD tiene aproximadamente 700,000 elementos y, por lo tanto, es demasiado grande para recolectar y encontrar la mediana. Esta pregunta ...

rdd python apache-spark

1 la respuesta

Una lista como clave para reduceByKey de PySpark

Estoy intentando llamar a la función reduceByKey de pyspark en datos del formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que pyspark no aceptará una matriz como clave en la clave normal, reducción de valor simplemente aplicando ...

python apache-spark

1 la respuesta

Pyspark - TypeError: el objeto 'flotante' no tiene subíndice al calcular la media usando reduceByKey

mi archivo "asdasd.csv" tiene la siguiente ...

Página 29 de 46

27 282930 31

Resultados de la búsqueda a petición "pyspark"

En pyspark, ¿cómo agrega / concat una cadena a una columna?

Spark 1.4 aumenta la memoria maxResultSize

Plano de pyspark en pandas

Etiquetas Populares

eliminar duplicados de un marco de datos en pyspark

PySpark - Superposición de tiempo para objeto en RDD

Crear estructura de datos de chispa a partir de registros multilínea

¿Cómo agruparByKey un RDD, con DenseVector como clave, en Spark?

Cómo encontrar medianas y cuantiles usando Spark

Una lista como clave para reduceByKey de PySpark

Pyspark - TypeError: el objeto 'flotante' no tiene subíndice al calcular la media usando reduceByKey

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "pyspark"

Etiquetas Populares