Resultados de la búsqueda a petición "pyspark"
En pyspark, ¿cómo agrega / concat una cadena a una columna?
Me gustaría agregar una cadena a una columna existente. Por ejemplo,df['col1'] tiene valores como'1', '2', '3' etc. y me gustaría concat string'000' a la izquierda decol1 para que pueda obtener una columna (nueva o reemplazar la anterior no ...
Spark 1.4 aumenta la memoria maxResultSize
Estoy usando Spark 1.4 para mi investigación y estoy luchando con la configuración de memoria. Mi máquina tiene 16 GB de memoria, así que no hay problema, ya que el tamaño de mi archivo es de solo 300 MB. Sin embargo, cuando intento convertir ...
Plano de pyspark en pandas
¿Hay una operación en pandas que haga lo mismo quemapa plano [http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.flatMap] en pyspark? Ejemplo de flatMap: >>> rdd = sc.parallelize([2, 3, 4]) >>> sorted(rdd.flatMap(lambda x: ...
eliminar duplicados de un marco de datos en pyspark
Estoy jugando con los marcos de datos en pyspark 1.4 localmente y tengo problemas para que el método de duplicados de caída funcione. Sigue devolviendo el error "AttributeError: el objeto 'list' no tiene el atributo 'dropDuplicates'". No estoy ...
PySpark - Superposición de tiempo para objeto en RDD
Mi objetivo es agrupar objetos en función de la superposición de tiempo. Cada objeto en mirdd contiene unastart_time yend_time. Probablemente estoy haciendo esto de manera ineficiente, pero lo que planeo hacer es asignar una identificación de ...
Crear estructura de datos de chispa a partir de registros multilínea
Estoy tratando de leer en el archivo de eventos retrosheet en chispa. El archivo de eventos está estructurado como tal. id,TEX201403310 version,2 info,visteam,PHI info,hometeam,TEX info,site,ARL02 info,date,2014/03/31 info,number,0 ...
¿Cómo agruparByKey un RDD, con DenseVector como clave, en Spark?
He creado un RDD con cada miembro como un par de valores clave con la clave como unDenseVector y valorar ser unint. p.ej. [(DenseVector([3,4]),10), (DenseVector([3,4]),20)]Ahora quiero agrupar por la clavek1: DenseVector([3,4]). Espero que el ...
Cómo encontrar medianas y cuantiles usando Spark
¿Cómo puedo encontrar la mediana de unRDD de enteros que utilizan un método distribuido, IPython y Spark? losRDD tiene aproximadamente 700,000 elementos y, por lo tanto, es demasiado grande para recolectar y encontrar la mediana. Esta pregunta ...
Una lista como clave para reduceByKey de PySpark
Estoy intentando llamar a la función reduceByKey de pyspark en datos del formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que pyspark no aceptará una matriz como clave en la clave normal, reducción de valor simplemente aplicando ...
Pyspark - TypeError: el objeto 'flotante' no tiene subíndice al calcular la media usando reduceByKey
mi archivo "asdasd.csv" tiene la siguiente ...