Resultados de la búsqueda a petición "pandas"

5 la respuesta

¿Cómo contar filas duplicadas en el marco de datos de pandas?

Estoy tratando de contar los duplicados de cada tipo de fila en mi marco de datos. Por ejemplo, digamos que tengo un marco de datos en pandas de la siguiente manera: df = pd.DataFrame({'one': pd.Series([1., 1, 1]), 'two': pd.Series([1., 2., ...

1 la respuesta

¿Cómo pasar un parámetro a solo una parte de un objeto de canalización en scikit learn?

Necesito pasar un parámetrosample_weight, para miRandomForestClassifier al igual que: X = np.array([[2.0, 2.0, 1.0, 0.0, 1.0, 3.0, 3.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 5.0, 3.0, 2.0, ...

7 la respuesta

División de la columna de marca de tiempo en columnas de fecha y hora separadas

Tengo un marco de datos de pandas con más de 1000 marcas de tiempo (a continuación) que me gustaría recorrer: 2016-02-22 14:59:44.561776Me resulta difícil dividir esta marca de tiempo en 2 columnas: 'fecha' y 'hora'. El formato de fecha puede ...

1 la respuesta

Matriz de distancia de Python Pandas usando similitud jaccard

He implementado una función para construir una matriz de distancia usando la similitud jaccard: import pandas as pd entries = [ {'id':'1', 'category1':'100', 'category2': '0', 'category3':'100'}, {'id':'2', 'category1':'100', 'category2': ...

2 la respuesta

La forma más eficiente de convertir valores de columna en Pandas DataFrame

Tengo un pd.DataFrame que se parece a: [/imgs/17YRS.png] Quiero crear un límite en los valores para insertarlos en dígitos binarios, mi límite en este caso es0.85. Quiero que el marco de datos resultante se vea así: [/imgs/JKR8o.png] El ...

1 la respuesta

Lectura en archivo csv como marco de datos de hdfs

Estoy usando pydoop para leer un archivo de hdfs, y cuando uso: import pydoop.hdfs as hd with hd.open("/home/file.csv") as f: print f.read()Me muestra el archivo en stdout. ¿Hay alguna forma de leer este archivo como marco de datos? He ...

3 la respuesta

Expresando el subconjunto de pandas usando tubería

Tengo un marco de datos que subconjunto así: a b x y 0 1 2 3 -1 1 2 4 6 -2 2 3 6 6 -3 3 4 8 3 -4 df = df[(df.a >= 2) & (df.b <= 8)] df = df.groupby(df.x).mean()¿Cómo expreso esto usando el operador de tubería pandas? df = (df .pipe((x.a > 2) & ...

1 la respuesta

Lectura de csv de pandas que tienen quotechar y delimitador para un valor de columna

Aquí está el contenido de un archivo csv 'test.csv', estoy tratando de leerlo a través de pandas read_csv () "col1", "col2", "col3", "col4" "v1", "v2", "v3", "v4" "v21", "v22", "v23", "this, "creating, what to do? " problems"Este es el comando ...

2 la respuesta

¿Cómo trazar el tiempo en el eje y en formato '% H:% M' en matplotlib?

Me gustaría trazar los tiempos de una serie datetime64, donde el eje y está formateado como '% H:% M, mostrando solo 00:00, 01:00, 02:00, etc. así es como se ve el gráfico sin personalizar el formato del eje y. import numpy as np import pandas ...

2 la respuesta

Valor máximo de Python Pandas en un grupo como una nueva columna

Estoy tratando de calcular una nueva columna que contiene valores máximos para cada uno de varios grupos. Vengo de un fondo Stata, así que sé que el código Stata sería algo como esto: by group, sort: egen max = max(odds)Por ejemplo: data = ...