Resultados de la búsqueda a petición "dataframe"

15 la respuesta

Eliminar filas con todos o algunos NA (valores faltantes) en data.frame

Me gustaría eliminar las líneas en este marco de datos que: una)ContieneNAs en todas las columnas.A continuación se muestra mi marco de datos de ejemplo. gene hsap mmul mmus rnor cfam 1 ENSG00000208234 0 NA NA NA NA 2 ENSG00000199674 0 2 2 2 2 ...

4 la respuesta

Cómo hacer buenos ejemplos reproducibles de Apache Spark

He pasado bastante tiempo leyendo algunas preguntas con elpyspark [/questions/tagged/pyspark]ymarco de datos de chispa [/questions/tagged/spark-dataframe]etiquetas y muy a menudo encuentro que los carteles no proporcionan suficiente información ...

1 la respuesta

Dividir una columna de cadenas y contar el número de palabras con pandas

id string 0 31672;0 1 31965;0 2 0;78464 3 51462 4 31931;0Hola, tengo esa mesa. Me gustaría dividir la tabla de cadenas por ';' y almacenarla en la nueva columna. la columna final debe ser así id string word_count 0 31672;0 2 1 31965;0 2 2 ...

2 la respuesta

En Pandas, ¿el método .iloc da una copia o vista?

Me parece que el resultado es un poco aleatorio. A veces es una copia, a veces es una vista. Por ejemplo: df = pd.DataFrame([{'name':'Marry', 'age':21},{'name':'John','age':24}],index=['student1','student2']) df age name student1 21 Marry ...

2 la respuesta

Cargue datos CSV en Dataframe y conviértalos a Array usando Apache Spark (Java)

Tengo un archivo CSV con los siguientes datos: 1,2,5 2,4 2,3Quiero cargarlos en un marco de datos que tenga un esquema de cadena de matriz La salida debería ser como a continuación. [1, 2, 5] [2, 4] [2, 3]Esto ha sido respondido usando scala ...

1 la respuesta

pandas groupby: valores TOP 3 para cada grupo

Se ha publicado una pregunta nueva y más genérica enpandas groupby: valores TOP 3 en cada grupo y almacenar en ...

2 la respuesta

Causado por: java.lang.NullPointerException en org.apache.spark.sql.Dataset

A continuación proporciono mi código. I iterar sobre el DataFrameprodRows y para cadaproduct_PK Encuentro una sublista coincidente de product_PKs deprodRows. numRecProducts = 10 var listOfProducts: Map[Long,Array[(Long, Int)]] = ...

2 la respuesta

R: Ordenar columnas de un marco de datos por un vector de nombres de columna

Tengo un data.frame que se ve así: que tiene más de 1000 columnas con nombres similares. Y tengo un vector de esos nombres de columna que se ve así: El vector se ordena por el cluster_id (que sube a 11). Quiero ordenar las columnas en el ...

1 la respuesta

Agregar columnas ficticias al marco de datos original

Tengo un marco de datos que se ve así: JOINED_CO GENDER EXEC_FULLNAME GVKEY YEAR CONAME BECAMECEO REJOIN LEFTOFC LEFTCO RELEFT REASON PAGE CO_PER_ROL 5622 NaN MALE Ira A. Eichner 1004 1992 AAR CORP 19550101 NaN 19961001 19990531 NaN RESIGNED ...

5 la respuesta

¿La mejor manera de almacenar datos de longitud variable en un R data.frame?

Tengo algunos datos de tipo mixto que me gustaría almacenar en una estructura de datos R de algún tipo. Cada punto de datos tiene un conjunto de atributos fijos que pueden ser 1-d numéricos, factores o caracteres, y también un conjunto de datos ...