Resultados de la búsqueda a petición "dataframe"
Forma pitónica / eficiente de eliminar espacios en blanco de cada celda de marco de datos de Pandas que tiene un objeto en forma de cadena
Estoy leyendo un archivo CSV en un DataFrame. Necesito eliminar el espacio en blanco de todas las celdas en forma de cadena, dejando las otras celdas sin cambios en Python 2.7. Esto es lo que estoy haciendo: def remove_whitespace( x ): if ...
Cuente el número de entradas que no son NaN en cada columna del marco de datos Spark con Pyspark
Tengo un conjunto de datos muy grande que se carga en Hive. Consiste en aproximadamente 1.9 millones de filas y 1450 columnas. Necesito determinar la "cobertura" de cada una de las columnas, es decir, la fracción de filas que tienen valores no ...
¿Cómo puedo cambiar XTS a data.frame y mantener Index?
Tengo una serie de tiempo XTS en R del siguiente formato y estoy tratando de hacer un procesamiento, subconjunto y reorganización antes de exportar como CSV para trabajar en otro programa. head(master_1) S_1 2010-03-03 00:00:00 2.8520 2010-03-03 ...
¿Cómo seleccionar la primera fila de cada grupo?
Tengo un DataFrame generado de la siguiente manera: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc))Los resultados se ven así: +----+--------+----------+ |Hour|Category|TotalValue| ...
¿Cómo puedo crear un Spark DataFrame a partir de una matriz anidada de elemento struct?
He leído un archivo JSON en Spark. Este archivo tiene la siguiente estructura: scala> tweetBlob.printSchema root |-- related: struct (nullable = true) | |-- next: struct (nullable = true) | | |-- href: string (nullable = true) |-- search: struct ...
Calcule la media de dos columnas en un marco de datos
Tengo un marco de datos que almacena diferentes valores. Muestra: a$open a$high a$low a$close 1.08648 1.08707 1.08476 1.08551 1.08552 1.08623 1.08426 1.08542 1.08542 1.08572 1.08453 1.08465 1.08468 1.08566 1.08402 1.08554 1.08552 1.08565 1.08436 ...
Apile los marcos de datos de Spark horizontalmente - equivalente a pandas concat o r cbind
¿Hay alguna manera de agregar undataframe horizontalmente a otro, ¿suponiendo que ambos tengan un número idéntico de filas? Esto sería el equivalente depandas concat poraxis=1; result = pd.concat([df1, df4], axis=1)o laR cbind
¿Cómo elimino duplicados y mantengo el primer valor en pandas?
Quiero soltar duplicados y mantener el primer valor. Los duplicados que se quieren eliminar son A = 'df'. Aquí están mis datos A B C D E qw 1 3 1 1 er 2 4 2 6 ew 4 8 44 4 df 34 34 34 34 df 2 5 2 2 df 3 3 7 3 df 4 4 7 4 we 2 5 5 2 we 4 4 4 4 df ...
Asignar valores a múltiples columnas en Pandas
He seguido DataFrame simple:df: 0 0 1 1 2 2 3Una vez que intento crear nuevas columnas y asignarles algunos valores, como se muestra a continuación: df['col2', 'col3'] = [(2,3), (2,3), (2,3)]Tengo la siguiente estructura 0 (col2, col3) 0 1 (2, ...
Ordenar dinámicamente las columnas en dplyr pasando el vector ordenado con nombres de columnas para seleccionar
Estoy usando el siguiente código para generar una tabla de resumen simple: # Data data("mtcars") # Lib require(dplyr) # Summary mt_sum <- mtcars %>% group_by(am) %>% summarise_each(funs(min, mean, median, max), mpg, cyl) %>% mutate(am = ...