Resultados de la búsqueda a petición "dataframe"

4 la respuesta

Filtrar un Pyspark DataFrame con una cláusula IN similar a SQL

Quiero filtrar un Pyspark DataFrame con un SQL comoIN cláusula, como en sc = SparkContext() sqlc = SQLContext(sc) df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')dóndea es la tupla(1, 2, 3). Recibo este error: java.lang.RuntimeException: ...

1 la respuesta

Python - Pandas - Escribir marco de datos en CSV

Estoy tratando de escribir un archivo de marco de datos de 4 tablas, 3 columnas y 50 filas en un csv usando pandas. Me sale el siguiente errorAttributeError: 'dict' object has no attribute 'to_csv'. Creo que estoy escribiendo la ...

3 la respuesta

Selección de datos del marco de datos de Pandas según los criterios almacenados en un dict

Tengo un marco de datos de Pandas que contiene una gran cantidad de variables. Esto se puede simplificar como: tempDF = pd.DataFrame({ 'var1': [12,12,12,12,45,45,45,51,51,51], 'var2': ['a','a','b','b','b','b','b','c','c','d'], ...

5 la respuesta

¿Cómo detecto si un Spark DataFrame tiene una columna?

Cuando creo unDataFrame desde un archivo JSON en Spark SQL, ¿cómo puedo saber si existe una columna determinada antes de llamar.select Ejemplo de esquema JSON: { "a": { "b": 1, "c": 2 } }Esto es lo que quiero hacer: potential_columns = ...

1 la respuesta

¿Cómo pruebo los valores numéricos en un marco de datos de caracteres y los convierto en numéricos?

Tengo un marco de datos similar al siguiente: > theDF ID Ticker INDUSTRY_SECTOR VAR CVAR 1 1 USD CASH 0 0 12 2 ZAR CASH -181412.82055904 -301731.22832191 23 3 BAT SJ EQUITY Financial 61711.951234826 102641.162795691 34 4 HCI SJ EQUITY Financial ...

3 la respuesta

Agregación múltiple en grupo por en Pandas Dataframe

SQL : Select Max(A) , Min (B) , C from Table group by CQuiero hacer la misma operación en pandas en un marco de datos. Cuanto más me acercaba era hasta: DF2= DF1.groupby(by=['C']).max()donde aterrizo obteniendo el máximo de ambas columnas, ¿cómo ...

3 la respuesta

Compruebe si cierto valor está contenido en una columna de marco de datos en pandas [duplicado]

Esta pregunta ya tiene una respuesta aquí: Cómo filtrar filas que contienen un patrón de cadena desde un marco de datos de Pandas [duplicado] [/questions/27975069/how-to-filter-rows-containing-a-string-pattern-from-a-pandas-dataframe] 4 ...

1 la respuesta

tubería dplyr: cómo agregar una fila de margen calculando un total (como la función addmargins - base) [duplicado]

Esta pregunta ya tiene una respuesta aquí: Agregue totales de fila de margen en la cadena dplyr [/questions/39507019/add-margin-row-totals-in,-dplyr-chain] 3 respuestasMis datos: data <- data.frame(column1 = c("A","B","C","D"), column2 = c(4, ...

1 la respuesta

Fusionar marcos de datos basados en columnas de índice [duplicado]

Esta pregunta ya tiene una respuesta aquí: Pandas Merging 101 [/questions/53645882/pandas-merging-101] 1 respuestaPuedo ver que lo que estoy tratando de hacer es posible a través deconcat: Fusionar marcos de datos en el ...

1 la respuesta

¿Cómo filtrar según el valor de la matriz en PySpark?

Mi esquema: |-- Canonical_URL: string (nullable = true) |-- Certifications: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- Certification_Authority: string (nullable = true) | | |-- End: string (nullable = true) | | ...