Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Cómo obtener la memoria del ejecutor del marco de agentes de Mesos

Inside Web Mesos UI Puedo ver el uso de memoria de mis ejecutores Spark en una tabla Agents -> Framework -> Executors Hay una tabla con todos los ejecutores de mi controlador Spark y su uso de memoria se indica en la columnaMem (Used / ...

3 la respuesta

SparkSQL: ¿Cómo lidiar con valores nulos en la función definida por el usuario?

Dada la Tabla 1 con una columna "x" de tipo String. Quiero crear la Tabla 2 con una columna "y" que es una representación entera de las cadenas de fecha dadas en "x". Esenciales mantenernull valores en la columna "y". Tabla 1 (Dataframe ...

1 la respuesta

¿Cómo transformar DataFrame antes de unirse a la operación?

El siguiente código se usa para extraer rangos de la columnaproducts. Los rangos son segundos números en cada par[...]. Por ejemplo, en el ejemplo dado[[222,66],[333,55]] los rangos son66 y55 para productos con PK222 y333, en consecuencia. Pero ...

1 la respuesta

Agregar parte de la columna del esquema principal al elemento secundario en JSON anidado en el marco de datos de chispa

Tengo debajo de xml que estoy tratando de cargar en el marco de datos de chispa. <?xml version="1.0"?> <env:ContentEnvelope xsi:schemaLocation="http"> <env:Header> ...

1 la respuesta

Cómo conectarse al servidor de colmena remoto desde spark

Estoy ejecutando spark localmente y quiero acceder a las tablas de Hive, que se encuentran en el clúster de Hadoop remoto. Puedo acceder a las tablas de la colmena iniciando beeline en SPARK_HOME [ml@master spark-2.0.0]$./bin/beeline Beeline ...

3 la respuesta

error de chispa al cargar archivos del comodín S3

Estoy usando el shell pyspark e intento leer datos de S3 usando la función comodín de archivo de spark, pero obtengo el siguiente error: Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 1.2.0 /_/ ...

1 la respuesta

¿Cómo funciona el particionador de rango en Spark?

No tengo muy claro cómo funciona el particionador de rango en Spark. Utiliza (Muestreo de yacimientos) para tomar muestras. Y estaba confundido por la forma de calcular los límites de la entrada. // This is the sample size we need to have ...

1 la respuesta

PySpark "explotar" dict en la columna

Tengo una columna 'true_recoms' en el marco de datos de chispa: -RECORD 17----------------------------------------------------------------- item | 20380109 true_recoms | {"5556867":1,"5801144":5,"7397596":21} Necesito 'explotar' esta columna ...

1 la respuesta

La variable LinkedHashMap no es accesible fuera del bucle foreach

Aquí está mi código. var link = scala.collection.mutable.LinkedHashMap[String, String]() var fieldTypeMapRDD = fixedRDD.mapPartitionsWithIndex((idx, itr) => itr.map(s => (s(8), s(9)))) fieldTypeMapRDD.foreach { i => println(i) link.put(i._1, ...

6 la respuesta

l error @pyspark no existe en el error jvm al inicializar SparkContext

Estoy usando spark over emr y escribiendo un script pyspark, recibo un error al intentar from pyspark import SparkContext sc = SparkContext()este es el error File "pyex.py", line 5, in <module> sc = SparkContext() ...