Resultados de la búsqueda a petición "dataframe"
Subconjunto de retorno basado en una lista de valores booleanos
Estoy tratando de dividir un marco de datos basado en la lista de valores, ¿cómo haría esto? Digamos que tengo una lista, l, y se ve así:[0,1,0,0,1,1,0,0,0,1] Quiero devolver todas las filas en un marco de datos, df, en función de si el valor ...
Cómo eliminar duplicados en función de dos o más criterios de subconjuntos en el marco de datos de Pandas
Digamos que este es mi marco de datos df = pd.DataFrame({ 'bio' : ['1', '1', '1', '4'], 'center' : ['one', 'one', 'two', 'three'], 'outcome' : ['f','t','f','f'] })Se parece a esto ... bio center outcome 0 1 one f 1 1 one t 2 1 two f 3 4 three ...
Crear una nueva columna a partir de filas específicas en el marco de datos de pandas
Tengo un archivo csv donde cada fila representa una propiedad seguida de un número variable de filas posteriores que reflejan las habitaciones en la propiedad. Quiero crear una columna que, para cada propiedad, sume el área bruta del piso de cada ...
Cómo realizar una sola operación en varias columnas del marco de datos
Tengo el siguiente marco de datos: df >>> TSLA MSFT 2017-05-15 00:00:00+00:00 320 68 2017-05-16 00:00:00+00:00 319 69 2017-05-17 00:00:00+00:00 314 61 2017-05-18 00:00:00+00:00 313 66 2017-05-19 00:00:00+00:00 316 62 2017-05-22 00:00:00+00:00 ...
¿Cómo convertir la columna con el tipo de cadena al formulario int en el marco de datos pyspark?
Tengo un marco de datos en pyspark. Algunas de sus columnas numéricas contienen 'nan', así que cuando estoy leyendo los datos y comprobando el esquema del marco de datos, esas columnas tendrán el tipo 'cadena'. Cómo puedo cambiarlos a tipo int. ...
Almacene numpy.array en celdas de un Pandas.DataFrame
Tengo un marco de datos en el que me gustaría almacenar 'raw'numpy.array: df['COL_ARRAY'] = df.apply(lambda r: np.array(do_something_with_r), axis=1)pero parece quepandas intenta 'desempaquetar' el numpy.array. ¿Hay alguna solución? ¿Aparte de ...
Transposición de trama de datos con pyspark en Apache Spark
Tengo un marco de datosdf que tienen la siguiente estructura: +-----+-----+-----+-------+ | s |col_1|col_2|col_...| +-----+-------------------+ | f1 | 0.0| 0.6| ... | | f2 | 0.6| 0.7| ... | | f3 | 0.5| 0.9| ... | | ...| ...| ...| ... |Y quiero ...
¿Cómo puedo reemplazar los valores de un archivo de texto con otros valores de otro archivo de texto solo si ciertos valores son iguales?
Tengo un archivo llamadofinalscores.txt y quiero crear un script de Python que lo abra y lea valores de dos columnas separadas. Este es mifinalscores.txt archivo Atom nVa predppm avgppm stdev delta QPred QMulti qTotal 7.H2 2 7.674 7.853 ...
R: columnas de cadenas de datos de 'Multiplicar'
No estoy seguro de cómo se llama esta operación, y Google no ayudó. Digamos que tengo dos marcos de datos simples como este: df1 <- data.frame(factor1 = c("a", "b", "c")) df2 <- data.frame(factor2 = c("x", "y", "z")) > df1 factor1 1 a 2 b 3 c > ...
Suma conjunto de valores del marco de datos de pandas dentro de cierto marco de tiempo
Tengo una pregunta bastante complicada. Necesito seleccionar filas de un marco de datos dentro de un determinado conjunto de fechas de inicio y finalización, y luego sumar esos valores y ponerlos en un nuevo marco de datos. Así que empiezo con ...