Resultados de la búsqueda a petición "dataframe"
diccionario de Python para el marco de datos de pandas con múltiples columnas
Tengo el siguiente diccionario de Python: d= {'data' : Counter({ 'important' : 2, 'very' : 3}), 'analytics' : Counter({ 'boring' : 5, 'sleep' : 3}) }Quiero guardarlo como un marco de datos de pandas en el siguiente formato: category | word | ...
cómo convertir datos mensuales a trimestrales en pandas
Tengo datos mensuales Quiero convertirlo a "períodos" de 3 meses donde q1 comienza en enero. Entonces, en el siguiente ejemplo, la agregación de los primeros 3 meses se traduciría en el inicio de q2 (formato deseado: 1996q2). Y el valor de los ...
Python: división de marcos de datos en múltiples marcos de datos basados en valores de columna y nombrarlos con esos valores [duplicado]
Esta pregunta ya tiene una respuesta aquí: División de trama de datos en múltiples tramas de datos [/questions/19790790/splitting-dataframe-into-multiple-dataframes] 9 respuestas Tengo un gran conjunto de datos que enumera productos de la ...
Ejecución de Spark en clúster: el trabajo inicial no ha aceptado ningún recurso
Tengo un servidor Ubuntu remoto enlinode.com [http://linode.com]con 4 núcleos y 8G RAMTengo un clúster Spark-2 que consta de 1 maestro y 1 esclavo en mi servidor Ubuntu remoto.He iniciado PySpark Shell localmente en mi MacBook, conectado a mi ...
Python pandas regresión lineal groupby
Estoy tratando de usar una regresión lineal en un grupo por el marco de datos de pandas python: Este es el marco de datos df: group date value A 01-02-2016 16 A 01-03-2016 15 A 01-04-2016 14 A 01-05-2016 17 A 01-06-2016 19 A 01-07-2016 20 B ...
¿Cuál es el tamaño máximo para un objeto de difusión en Spark?
Cuando use Dataframeemisión [http://spark.apache.org/docs/2.0.0/api/java/org/apache/spark/sql/functions.html#broadcast(org.apache.spark.sql.Dataset)] función o el ...
Solo mantenga el valor mínimo para cada nivel de factor
Tengo un problema que me molesta por algún tiempo ... espero que alguien aquí pueda ayudarme. Tengo el siguiente marco de datos f <- c('a','a','b','b','b','c','d','d','d','d') v1 <- c(1.3,10,2,10,10,1.1,10,3.1,10,10) v2 <- c(1:10) df <- ...
Función len lenta en el marco de datos distribuido dask
He estado probando cómo usar dask (clúster con 20 núcleos) y estoy sorprendido por la velocidad que obtengo al llamar a una función len frente a cortar a través de loc. import dask.dataframe as dd from dask.distributed import Client client ...
Datos coincidentes y número de conteo del mismo valor
Tengo dos conjuntos de datos (marcos de datos). Me gustaría encontrar valores coincidentes entre estos conjuntos de datos basados en los nombres de cada columna. intput1 <- structure(list(A = c(1L, 0L, 1L, 0L), B = c(2L, 2L, 1L, 1L), C = c(3L, ...
marco de datos de tfidf con python
Tengo que clasificar algunos sentimientos, mi marco de datos es así Phrase Sentiment is it good movie positive wooow is it very goode positive bad movie negativehice un preprocesamiento como tokenización para detener las palabras derivadas, etc. ...