Resultados de la búsqueda a petición "pyspark"

2 la respuesta

En pyspark, ¿cómo agrega / concat una cadena a una columna?

Me gustaría agregar una cadena a una columna existente. Por ejemplo,df['col1'] tiene valores como'1', '2', '3' etc. y me gustaría concat string'000' a la izquierda decol1 para que pueda obtener una columna (nueva o reemplazar la anterior no ...

7 la respuesta

Spark 1.4 aumenta la memoria maxResultSize

Estoy usando Spark 1.4 para mi investigación y estoy luchando con la configuración de memoria. Mi máquina tiene 16 GB de memoria, así que no hay problema, ya que el tamaño de mi archivo es de solo 300 MB. Sin embargo, cuando intento convertir ...

3 la respuesta

Plano de pyspark en pandas

¿Hay una operación en pandas que haga lo mismo quemapa plano [http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.flatMap] en pyspark? Ejemplo de flatMap: >>> rdd = sc.parallelize([2, 3, 4]) >>> sorted(rdd.flatMap(lambda x: ...

2 la respuesta

eliminar duplicados de un marco de datos en pyspark

Estoy jugando con los marcos de datos en pyspark 1.4 localmente y tengo problemas para que el método de duplicados de caída funcione. Sigue devolviendo el error "AttributeError: el objeto 'list' no tiene el atributo 'dropDuplicates'". No estoy ...

1 la respuesta

PySpark - Superposición de tiempo para objeto en RDD

Mi objetivo es agrupar objetos en función de la superposición de tiempo. Cada objeto en mirdd contiene unastart_time yend_time. Probablemente estoy haciendo esto de manera ineficiente, pero lo que planeo hacer es asignar una identificación de ...

1 la respuesta

Crear estructura de datos de chispa a partir de registros multilínea

Estoy tratando de leer en el archivo de eventos retrosheet en chispa. El archivo de eventos está estructurado como tal. id,TEX201403310 version,2 info,visteam,PHI info,hometeam,TEX info,site,ARL02 info,date,2014/03/31 info,number,0 ...

1 la respuesta

¿Cómo agruparByKey un RDD, con DenseVector como clave, en Spark?

He creado un RDD con cada miembro como un par de valores clave con la clave como unDenseVector y valorar ser unint. p.ej. [(DenseVector([3,4]),10), (DenseVector([3,4]),20)]Ahora quiero agrupar por la clavek1: DenseVector([3,4]). Espero que el ...

4 la respuesta

Cómo encontrar medianas y cuantiles usando Spark

¿Cómo puedo encontrar la mediana de unRDD de enteros que utilizan un método distribuido, IPython y Spark? losRDD tiene aproximadamente 700,000 elementos y, por lo tanto, es demasiado grande para recolectar y encontrar la mediana. Esta pregunta ...

1 la respuesta

Una lista como clave para reduceByKey de PySpark

Estoy intentando llamar a la función reduceByKey de pyspark en datos del formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que pyspark no aceptará una matriz como clave en la clave normal, reducción de valor simplemente aplicando ...

1 la respuesta

Pyspark - TypeError: el objeto 'flotante' no tiene subíndice al calcular la media usando reduceByKey

mi archivo "asdasd.csv" tiene la siguiente ...