Resultados de la búsqueda a petición "apache-spark"
Cómo obtener la memoria del ejecutor del marco de agentes de Mesos
Inside Web Mesos UI Puedo ver el uso de memoria de mis ejecutores Spark en una tabla Agents -> Framework -> Executors Hay una tabla con todos los ejecutores de mi controlador Spark y su uso de memoria se indica en la columnaMem (Used / ...
SparkSQL: ¿Cómo lidiar con valores nulos en la función definida por el usuario?
Dada la Tabla 1 con una columna "x" de tipo String. Quiero crear la Tabla 2 con una columna "y" que es una representación entera de las cadenas de fecha dadas en "x". Esenciales mantenernull valores en la columna "y". Tabla 1 (Dataframe ...
¿Cómo transformar DataFrame antes de unirse a la operación?
El siguiente código se usa para extraer rangos de la columnaproducts. Los rangos son segundos números en cada par[...]. Por ejemplo, en el ejemplo dado[[222,66],[333,55]] los rangos son66 y55 para productos con PK222 y333, en consecuencia. Pero ...
Agregar parte de la columna del esquema principal al elemento secundario en JSON anidado en el marco de datos de chispa
Tengo debajo de xml que estoy tratando de cargar en el marco de datos de chispa. <?xml version="1.0"?> <env:ContentEnvelope xsi:schemaLocation="http"> <env:Header> ...
Cómo conectarse al servidor de colmena remoto desde spark
Estoy ejecutando spark localmente y quiero acceder a las tablas de Hive, que se encuentran en el clúster de Hadoop remoto. Puedo acceder a las tablas de la colmena iniciando beeline en SPARK_HOME [ml@master spark-2.0.0]$./bin/beeline Beeline ...
error de chispa al cargar archivos del comodín S3
Estoy usando el shell pyspark e intento leer datos de S3 usando la función comodín de archivo de spark, pero obtengo el siguiente error: Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 1.2.0 /_/ ...
¿Cómo funciona el particionador de rango en Spark?
No tengo muy claro cómo funciona el particionador de rango en Spark. Utiliza (Muestreo de yacimientos) para tomar muestras. Y estaba confundido por la forma de calcular los límites de la entrada. // This is the sample size we need to have ...
PySpark "explotar" dict en la columna
Tengo una columna 'true_recoms' en el marco de datos de chispa: -RECORD 17----------------------------------------------------------------- item | 20380109 true_recoms | {"5556867":1,"5801144":5,"7397596":21} Necesito 'explotar' esta columna ...
La variable LinkedHashMap no es accesible fuera del bucle foreach
Aquí está mi código. var link = scala.collection.mutable.LinkedHashMap[String, String]() var fieldTypeMapRDD = fixedRDD.mapPartitionsWithIndex((idx, itr) => itr.map(s => (s(8), s(9)))) fieldTypeMapRDD.foreach { i => println(i) link.put(i._1, ...
l error @pyspark no existe en el error jvm al inicializar SparkContext
Estoy usando spark over emr y escribiendo un script pyspark, recibo un error al intentar from pyspark import SparkContext sc = SparkContext()este es el error File "pyex.py", line 5, in <module> sc = SparkContext() ...