Resultados de la búsqueda a petición "sparkr"
Cargando com.databricks.spark.csv a través de RStudio
He instalado Spark-1.4.0. También he instalado su paquete R SparkR y puedo usarlo a través de Spark-shell y a través de RStudio, sin embargo, hay una diferencia que no puedo resolver. Al iniciar el SparkR-shell ./bin/sparkR --master local[7] ...
Instalación de SparkR
Tengo la última versión de R - 3.2.1. Ahora quiero instalar SparkR en R. Después de ejecutar: > install.packages("SparkR")Regresé: Installing package into ‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’ (as ‘lib’ is unspecified) Warning in ...
Error SparkR en sparkR.init (master = “local”) en RStudio
He instalado el paquete SparkR de la distribución Spark en la biblioteca R. Puedo llamar al siguiente comando y parece funcionar correctamente:library(SparkR) Sin embargo, cuando trato de obtener el contexto de Spark usando el ...
Error de SparkR collect () y head () para Spark DataFrame: los argumentos implican un número diferente de filas
Leí un archivo de parquet del sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...
Cómo manejar entradas nulas en SparkR
Tengo un SparkSQL DataFrame. Algunas entradas en estos datos están vacías pero no se comportan como NULL o NA. ¿Cómo podría eliminarlos? ¿Algunas ideas? En R puedo eliminarlos fácilmente, pero en sparkR dice que hay un problema con el sistema / ...
SparkR: dplyr-style split-apply-combine en DataFrame
Bajo el paradigma RDD anterior, podría especificar una clave y luego asignar una operación a los elementos RDD correspondientes a cada clave. No veo una forma clara de hacer esto con DataFrame en SparkR a partir de 1.5.1. Lo que me gustaría hacer ...
Columnas duplicadas en Spark Dataframe
Tengo un archivo csv de 10GB en clúster hadoop con columnas duplicadas. Intento analizarlo en SparkR, así que usospark-csv paquete para analizarlo comoDataFrame: df <- read.df( sqlContext, FILE_PATH, source = "com.databricks.spark.csv", header = ...
Escribir marcos de datos R devueltos desde SparkR ::: map
Estoy usando SparkR ::: map y mi función devuelve un marco de datos R de gran tamaño para cada fila de entrada, cada una de la misma forma. Me gustaría escribir estos marcos de datos como archivos de parquet sin 'recopilarlos'. ¿Puedo asignar ...
SparkR muestra mal el carácter chino
Soy nuevo en SparkR, en estos días me encontré con un problema que después de convertir un archivo que contenía caracteres chinos en SparkR, ya no se mostraba correctamente. Me gusta esto: city=c("北京","上海","杭州") A <- as.data.frame(city) A city 1 ...
Trabajo SparkR 100 minutos de tiempo de espera
He escrito un script sparkR un poco complejo y lo ejecuto usando spark-submit. Lo que básicamente hace el script es leer una gran tabla basada en parqué colmena / impala fila por fila y generar un nuevo archivo de parquet que tenga el mismo ...
Página 1 de 2