Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Value join no es miembro de org.apache.spark.rdd.RDD [(Long, T)]

Esta función parece válida para mi IDE: def zip[T, U](rdd1:RDD[T], rdd2:RDD[U]) : RDD[(T,U)] = { rdd1 .zipWithIndex .map(_.swap) .join( rdd2 .zipWithIndex .map(_.swap)) .values }Pero cuando compilo, obtengo: value join no es miembro de ...

1 la respuesta

Spark necesita de HDFS

Hola, ¿alguien puede explicarme? ¿Apache 'Spark Standalone' necesita HDFS? Si se requiere cómo Spark usa el tamaño de bloque HDFS durante la ejecución de la aplicación Spark. Quiero decir, estoy tratando de entender cuál será el rol HDFS durante ...

1 la respuesta

¿Por qué SparkSession se ejecuta dos veces para una acción?

Recientemente actualizado a Spark 2.0 y veo un comportamiento extraño al intentar crear un conjunto de datos simple a partir de cadenas JSON. Aquí hay un caso de prueba simple: SparkSession spark ...

1 la respuesta

¿Cómo limitar la autoasignación dinámica de recursos en el clúster Hadoop bajo Yarn?

En nuestro clúster de Hadoop que se ejecuta bajo Yarn, tenemos el problema de que algunas personas "más inteligentes" pueden consumir grandes cantidades de recursos configurando trabajos de Spark en portátiles pySpark Jupyter como: conf = ...

0 la respuesta

Spark 2.0: "Tabla o vista no encontrada" al consultar Hive [cerrado]

Al consultar Hive a través despark-shell 2.0: spark.sql("SELECT * FROM schemaname.tablename")Lanza un error: 16/08/13 09:24:17 INFO execution.SparkSqlParser: Parsing command: SELECT * FROM schemaname.tablename ...

1 la respuesta

Error al conectarse al maestro de chispas: InvalidClassException: org.apache.spark.rpc.RpcEndpointRef; clase local incompatible

Instalé Spark en una máquina Linux. la versión es spark-1.6.2-bin-hadoop2.6.tgz.y luego inicio el Spark usando ./sbin/start-all.sh Intenté ejecutar los ejemplos JavaWordCount.java en Eclipse. pero siempre fallaba alguien me puede ayudar? la ...

2 la respuesta

Spark no imprime salidas en la consola dentro de la función de mapa

Tengo una aplicación Spark simple que se ejecuta en modo de clúster. val funcGSSNFilterHeader = (x: String) => { println(!x.contains("servedMSISDN") !x.contains("servedMSISDN") } val ssc = new StreamingContext(sc, Seconds(batchIntervalSeconds)) ...

1 la respuesta

Cómo conectarse al servidor de colmena remoto desde spark

Estoy ejecutando spark localmente y quiero acceder a las tablas de Hive, que se encuentran en el clúster de Hadoop remoto. Puedo acceder a las tablas de la colmena iniciando beeline en SPARK_HOME [ml@master spark-2.0.0]$./bin/beeline Beeline ...

1 la respuesta

Cambio de propiedad anulable en la columna Spark Dataframe

Quiero cambiar la propiedad anulable de una columna en particular en un Spark Dataframe. Si imprimo el esquema del marco de datos actualmente, se ve a continuación.col1: string (nullable = false) col2: string (nullable = true) col3: string ...

3 la respuesta

Aplicación de UDF en GroupedData en PySpark (con ejemplo de Python en funcionamiento)

Tengo este código de Python que se ejecuta localmente en un marco de datos de pandas: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name))Me gustaría ejecutar esto en PySpark, pero tengo problemas ...