Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

diferenciar el código del controlador y el código de trabajo en Apache Spark

En el programa Apache Spark, ¿cómo sabemos qué parte del código se ejecutará en el programa controlador y qué parte del código se ejecutará en los nodos de trabajo? Con saludos

4 la respuesta

¿Cómo puedo actualizar una variable de transmisión en la transmisión por chispa?

Tengo, creo, un caso de uso relativamente común para la transmisión por chispa: Tengo una secuencia de objetos que me gustaría filtrar en función de algunos datos de referencia Inicialmente, pensé que esto sería algo muy simple de lograr usando ...

2 la respuesta

Reemplazar valores nulos en Spark DataFrame

Vi una solución aquí, pero cuando lo intenté no me funciona. Primero importo un archivo cars.csv: val df = sqlContext.read .format("com.databricks.spark.csv") .option("header", "true") .load("/usr/local/spark/cars.csv")Que se parece a lo ...

2 la respuesta

Spark 1.5.1, MLLib Probabilidad de bosque aleatorio

Estoy usando Spark 1.5.1 con MLLib. Construí un modelo de bosque aleatorio usando MLLib, ahora uso el modelo para hacer predicciones. Puedo encontrar la categoría de predicción (0.0 o 1.0) usando la función .predict. Sin embargo, no puedo ...

1 la respuesta

Pyspark y PCA: ¿Cómo puedo extraer los vectores propios de esta PCA? ¿Cómo puedo calcular cuánta varianza están explicando?

Estoy reduciendo la dimensionalidad de unSpark DataFrame conPCA modelo con pyspark (utilizando elspark ml biblioteca) de la siguiente manera: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)dóndedata es unSpark ...

1 la respuesta

¿Cómo maneja Spark DataFrame el Pandas DataFrame que es más grande que la memoria?

Ahora estoy aprendiendo Spark, y parece ser la solución de Big Data para Pandas Dataframe, pero tengo esta pregunta que me hace inseguro. Actualmente estoy almacenando marcos de datos Pandas que son más grandes que la memoria usando HDF5. HDF5 ...

4 la respuesta

Conseguir que Spark, Python y MongoDB trabajen juntos

Tengo dificultades para lograr que estos componentes se unan correctamente. Tengo Spark instalado y trabajando con éxito, puedo ejecutar trabajos localmente, de forma independiente y también a través de YARN. He seguido los pasos recomendados ...

1 la respuesta

Columna de matriz de acceso en Spark

Un Spark DataFrame contiene una columna de tipo Array [Double]. Lanza una excepción ClassCastException cuando intento recuperarlo en una función map (). El siguiente código Scala genera una excepción. case class Dummy( x:Array[Double] ) val df ...

7 la respuesta

Lista de carpetas de Spark Scala en el directorio

Quiero enumerar todas las carpetas dentro de un directorio hdfs usando Scala / Spark. En Hadoop puedo hacer esto usando el comando:hadoop fs -ls hdfs://sandbox.hortonworks.com/demo/ Lo probé con: val conf = new Configuration() val fs = ...

6 la respuesta

Inicializar un RDD para vaciar

Tengo un RDD llamado JavaPairRDD<String, List<String>> existingRDD;Ahora necesito inicializar estoexistingRDD vaciar para que cuando obtenga los rdd reales pueda hacer una unión con estoexistingRDD. ¿Cómo inicializoexistingRDD a un RDD vacío ...