Resultados de la búsqueda a petición "sparkr"

4 la respuesta

Cargando com.databricks.spark.csv a través de RStudio

He instalado Spark-1.4.0. También he instalado su paquete R SparkR y puedo usarlo a través de Spark-shell y a través de RStudio, sin embargo, hay una diferencia que no puedo resolver. Al iniciar el SparkR-shell ./bin/sparkR --master local[7] ...

4 la respuesta

Instalación de SparkR

Tengo la última versión de R - 3.2.1. Ahora quiero instalar SparkR en R. Después de ejecutar: > install.packages("SparkR")Regresé: Installing package into ‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’ (as ‘lib’ is unspecified) Warning in ...

4 la respuesta

Error SparkR en sparkR.init (master = “local”) en RStudio

He instalado el paquete SparkR de la distribución Spark en la biblioteca R. Puedo llamar al siguiente comando y parece funcionar correctamente:library(SparkR) Sin embargo, cuando trato de obtener el contexto de Spark usando el ...

0 la respuesta

Error de SparkR collect () y head () para Spark DataFrame: los argumentos implican un número diferente de filas

Leí un archivo de parquet del sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...

2 la respuesta

Cómo manejar entradas nulas en SparkR

Tengo un SparkSQL DataFrame. Algunas entradas en estos datos están vacías pero no se comportan como NULL o NA. ¿Cómo podría eliminarlos? ¿Algunas ideas? En R puedo eliminarlos fácilmente, pero en sparkR dice que hay un problema con el sistema / ...

0 la respuesta

SparkR: dplyr-style split-apply-combine en DataFrame

Bajo el paradigma RDD anterior, podría especificar una clave y luego asignar una operación a los elementos RDD correspondientes a cada clave. No veo una forma clara de hacer esto con DataFrame en SparkR a partir de 1.5.1. Lo que me gustaría hacer ...

3 la respuesta

Columnas duplicadas en Spark Dataframe

Tengo un archivo csv de 10GB en clúster hadoop con columnas duplicadas. Intento analizarlo en SparkR, así que usospark-csv paquete para analizarlo comoDataFrame: df <- read.df( sqlContext, FILE_PATH, source = "com.databricks.spark.csv", header = ...

1 la respuesta

Escribir marcos de datos R devueltos desde SparkR ::: map

Estoy usando SparkR ::: map y mi función devuelve un marco de datos R de gran tamaño para cada fila de entrada, cada una de la misma forma. Me gustaría escribir estos marcos de datos como archivos de parquet sin 'recopilarlos'. ¿Puedo asignar ...

1 la respuesta

SparkR muestra mal el carácter chino

Soy nuevo en SparkR, en estos días me encontré con un problema que después de convertir un archivo que contenía caracteres chinos en SparkR, ya no se mostraba correctamente. Me gusta esto: city=c("北京","上海","杭州") A <- as.data.frame(city) A city 1 ...

1 la respuesta

Trabajo SparkR 100 minutos de tiempo de espera

He escrito un script sparkR un poco complejo y lo ejecuto usando spark-submit. Lo que básicamente hace el script es leer una gran tabla basada en parqué colmena / impala fila por fila y generar un nuevo archivo de parquet que tenga el mismo ...