Resultados de la búsqueda a petición "pandas"
¿Cómo contar filas duplicadas en el marco de datos de pandas?
Estoy tratando de contar los duplicados de cada tipo de fila en mi marco de datos. Por ejemplo, digamos que tengo un marco de datos en pandas de la siguiente manera: df = pd.DataFrame({'one': pd.Series([1., 1, 1]), 'two': pd.Series([1., 2., ...
¿Cómo pasar un parámetro a solo una parte de un objeto de canalización en scikit learn?
Necesito pasar un parámetrosample_weight, para miRandomForestClassifier al igual que: X = np.array([[2.0, 2.0, 1.0, 0.0, 1.0, 3.0, 3.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 5.0, 3.0, 2.0, ...
División de la columna de marca de tiempo en columnas de fecha y hora separadas
Tengo un marco de datos de pandas con más de 1000 marcas de tiempo (a continuación) que me gustaría recorrer: 2016-02-22 14:59:44.561776Me resulta difícil dividir esta marca de tiempo en 2 columnas: 'fecha' y 'hora'. El formato de fecha puede ...
Matriz de distancia de Python Pandas usando similitud jaccard
He implementado una función para construir una matriz de distancia usando la similitud jaccard: import pandas as pd entries = [ {'id':'1', 'category1':'100', 'category2': '0', 'category3':'100'}, {'id':'2', 'category1':'100', 'category2': ...
La forma más eficiente de convertir valores de columna en Pandas DataFrame
Tengo un pd.DataFrame que se parece a: [/imgs/17YRS.png] Quiero crear un límite en los valores para insertarlos en dígitos binarios, mi límite en este caso es0.85. Quiero que el marco de datos resultante se vea así: [/imgs/JKR8o.png] El ...
Lectura en archivo csv como marco de datos de hdfs
Estoy usando pydoop para leer un archivo de hdfs, y cuando uso: import pydoop.hdfs as hd with hd.open("/home/file.csv") as f: print f.read()Me muestra el archivo en stdout. ¿Hay alguna forma de leer este archivo como marco de datos? He ...
Expresando el subconjunto de pandas usando tubería
Tengo un marco de datos que subconjunto así: a b x y 0 1 2 3 -1 1 2 4 6 -2 2 3 6 6 -3 3 4 8 3 -4 df = df[(df.a >= 2) & (df.b <= 8)] df = df.groupby(df.x).mean()¿Cómo expreso esto usando el operador de tubería pandas? df = (df .pipe((x.a > 2) & ...
Lectura de csv de pandas que tienen quotechar y delimitador para un valor de columna
Aquí está el contenido de un archivo csv 'test.csv', estoy tratando de leerlo a través de pandas read_csv () "col1", "col2", "col3", "col4" "v1", "v2", "v3", "v4" "v21", "v22", "v23", "this, "creating, what to do? " problems"Este es el comando ...
¿Cómo trazar el tiempo en el eje y en formato '% H:% M' en matplotlib?
Me gustaría trazar los tiempos de una serie datetime64, donde el eje y está formateado como '% H:% M, mostrando solo 00:00, 01:00, 02:00, etc. así es como se ve el gráfico sin personalizar el formato del eje y. import numpy as np import pandas ...
Valor máximo de Python Pandas en un grupo como una nueva columna
Estoy tratando de calcular una nueva columna que contiene valores máximos para cada uno de varios grupos. Vengo de un fondo Stata, así que sé que el código Stata sería algo como esto: by group, sort: egen max = max(odds)Por ejemplo: data = ...