Resultados de la búsqueda a petición "apache-spark"
Value join no es miembro de org.apache.spark.rdd.RDD [(Long, T)]
Esta función parece válida para mi IDE: def zip[T, U](rdd1:RDD[T], rdd2:RDD[U]) : RDD[(T,U)] = { rdd1 .zipWithIndex .map(_.swap) .join( rdd2 .zipWithIndex .map(_.swap)) .values }Pero cuando compilo, obtengo: value join no es miembro de ...
Spark necesita de HDFS
Hola, ¿alguien puede explicarme? ¿Apache 'Spark Standalone' necesita HDFS? Si se requiere cómo Spark usa el tamaño de bloque HDFS durante la ejecución de la aplicación Spark. Quiero decir, estoy tratando de entender cuál será el rol HDFS durante ...
¿Por qué SparkSession se ejecuta dos veces para una acción?
Recientemente actualizado a Spark 2.0 y veo un comportamiento extraño al intentar crear un conjunto de datos simple a partir de cadenas JSON. Aquí hay un caso de prueba simple: SparkSession spark ...
¿Cómo limitar la autoasignación dinámica de recursos en el clúster Hadoop bajo Yarn?
En nuestro clúster de Hadoop que se ejecuta bajo Yarn, tenemos el problema de que algunas personas "más inteligentes" pueden consumir grandes cantidades de recursos configurando trabajos de Spark en portátiles pySpark Jupyter como: conf = ...
Spark 2.0: "Tabla o vista no encontrada" al consultar Hive [cerrado]
Al consultar Hive a través despark-shell 2.0: spark.sql("SELECT * FROM schemaname.tablename")Lanza un error: 16/08/13 09:24:17 INFO execution.SparkSqlParser: Parsing command: SELECT * FROM schemaname.tablename ...
Error al conectarse al maestro de chispas: InvalidClassException: org.apache.spark.rpc.RpcEndpointRef; clase local incompatible
Instalé Spark en una máquina Linux. la versión es spark-1.6.2-bin-hadoop2.6.tgz.y luego inicio el Spark usando ./sbin/start-all.sh Intenté ejecutar los ejemplos JavaWordCount.java en Eclipse. pero siempre fallaba alguien me puede ayudar? la ...
Spark no imprime salidas en la consola dentro de la función de mapa
Tengo una aplicación Spark simple que se ejecuta en modo de clúster. val funcGSSNFilterHeader = (x: String) => { println(!x.contains("servedMSISDN") !x.contains("servedMSISDN") } val ssc = new StreamingContext(sc, Seconds(batchIntervalSeconds)) ...
Cómo conectarse al servidor de colmena remoto desde spark
Estoy ejecutando spark localmente y quiero acceder a las tablas de Hive, que se encuentran en el clúster de Hadoop remoto. Puedo acceder a las tablas de la colmena iniciando beeline en SPARK_HOME [ml@master spark-2.0.0]$./bin/beeline Beeline ...
Cambio de propiedad anulable en la columna Spark Dataframe
Quiero cambiar la propiedad anulable de una columna en particular en un Spark Dataframe. Si imprimo el esquema del marco de datos actualmente, se ve a continuación.col1: string (nullable = false) col2: string (nullable = true) col3: string ...
Aplicación de UDF en GroupedData en PySpark (con ejemplo de Python en funcionamiento)
Tengo este código de Python que se ejecuta localmente en un marco de datos de pandas: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name))Me gustaría ejecutar esto en PySpark, pero tengo problemas ...