Resultados de la búsqueda a petición "dataframe"
Aplicación de la función a la columna Spark Dataframe
Viniendo de R, estoy acostumbrado a realizar fácilmente operaciones en columnas. ¿Hay alguna manera fácil de tomar esta función que he escrito en scala? def round_tenths_place( un_rounded:Double ) : Double = { val rounded ...
lectura de hoja de Excel como marco de datos de múltiples índices a través de pd.read_excel ()
Me cuesta leer una hoja de Excel conpd.read_excel(). Mi tabla de Excel se ve así en su forma cruda: [/imgs/XOgSs.png] Esperaba que el marco de datos se viera así: bar baz foo one two one two one two A B C D E F baz one 0.085930 ...
Comparta SparkContext entre Java y R Apps bajo el mismo Master
Así que aquí está la configuración. Actualmente tengo dos aplicaciones Spark inicializadas. Necesito pasar datos entre ellos (preferiblemente a través de sparkcontext / sqlcontext compartido para poder consultar una tabla temporal). Actualmente ...
Extraer int de la cadena en pandas
Digamos que tengo un marco de datosdf como A B 1 V2 3 W42 1 S03 2 T02 3 U71Quiero tener una nueva columna (ya sea al final dedf o reemplazar columnaB con él, como no importa) que solo extrae el int de la columnaB. Es que quiero columnaC ...
Cómo importar una tabla con encabezados a un marco de datos usando el módulo pandas
Estoy tratando de obtener información de una tabla en Internet como se muestra a continuación. Estoy usando el cuaderno jupyter con python 2.7. Quiero usar esta información en el módulo panda de Python como marco de datos. Pero cuando copio la ...
_corrupt_record error al leer un archivo JSON en Spark
Tengo este archivo JSON { "a": 1, "b": 2 }que se ha obtenido con el método Python json.dump. Ahora, quiero leer este archivo en un DataFrame en Spark, usando pyspark. Siguiendo la documentación, estoy haciendo esto sc = SparkContext () sqlc = ...
pyspark: Convertir DataFrame a RDD [cadena]
Me gustaria convertirpyspark.sql.dataframe.DataFrame apyspark.rdd.RDD[String] Convertí un DataFramedf a RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDel nuevo RDDdata contieneRow first = data.first() type(first) ## pyspark.sql.types.Row ...
¿Cómo establecer los nombres de fila de un marco de datos pasado con el operador de tubería%>%?
Tengo un marco de datos que soydcasting usando elreshape2 paquete, y me gustaría eliminar la primera columna y hacer que se convierta en los nombres de fila del marco de datos en su lugar. Marco de datos original, antesdcast: > corner(df) ...
Error: nrow (x) == n no es VERDADERO cuando se usa Train in Caret
Tengo un conjunto de entrenamiento que parece Name Day Area X Y Month Night ATTACK Monday LA -122.41 37.78 8 0 VEHICLE Saturday CHICAGO -1.67 3.15 2 0 MOUSE Monday TAIPEI -12.5 3.1 9 1Name es el resultado / variable dependiente. Me convertiName, ...
Suma en filas de valores agrupados por columnas con el mismo nombre
Tengo un marco de datos donde varias columnas pueden tener el mismo nombre. En este pequeño ejemplo, tanto la columna "A" como la "G" aparecen dos veces: A C G A G T 1 1 NA NA NA 1 NA 2 1 NA 5 3 1 NA 3 NA 1 NA NA NA 1 4 NA NA 1 2 NA NA 5 NA NA 1 ...