Resultados de la búsqueda a petición "apache-spark"
diferenciar el código del controlador y el código de trabajo en Apache Spark
En el programa Apache Spark, ¿cómo sabemos qué parte del código se ejecutará en el programa controlador y qué parte del código se ejecutará en los nodos de trabajo? Con saludos
¿Cómo puedo actualizar una variable de transmisión en la transmisión por chispa?
Tengo, creo, un caso de uso relativamente común para la transmisión por chispa: Tengo una secuencia de objetos que me gustaría filtrar en función de algunos datos de referencia Inicialmente, pensé que esto sería algo muy simple de lograr usando ...
Reemplazar valores nulos en Spark DataFrame
Vi una solución aquí, pero cuando lo intenté no me funciona. Primero importo un archivo cars.csv: val df = sqlContext.read .format("com.databricks.spark.csv") .option("header", "true") .load("/usr/local/spark/cars.csv")Que se parece a lo ...
Spark 1.5.1, MLLib Probabilidad de bosque aleatorio
Estoy usando Spark 1.5.1 con MLLib. Construí un modelo de bosque aleatorio usando MLLib, ahora uso el modelo para hacer predicciones. Puedo encontrar la categoría de predicción (0.0 o 1.0) usando la función .predict. Sin embargo, no puedo ...
Pyspark y PCA: ¿Cómo puedo extraer los vectores propios de esta PCA? ¿Cómo puedo calcular cuánta varianza están explicando?
Estoy reduciendo la dimensionalidad de unSpark DataFrame conPCA modelo con pyspark (utilizando elspark ml biblioteca) de la siguiente manera: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)dóndedata es unSpark ...
¿Cómo maneja Spark DataFrame el Pandas DataFrame que es más grande que la memoria?
Ahora estoy aprendiendo Spark, y parece ser la solución de Big Data para Pandas Dataframe, pero tengo esta pregunta que me hace inseguro. Actualmente estoy almacenando marcos de datos Pandas que son más grandes que la memoria usando HDF5. HDF5 ...
Conseguir que Spark, Python y MongoDB trabajen juntos
Tengo dificultades para lograr que estos componentes se unan correctamente. Tengo Spark instalado y trabajando con éxito, puedo ejecutar trabajos localmente, de forma independiente y también a través de YARN. He seguido los pasos recomendados ...
Columna de matriz de acceso en Spark
Un Spark DataFrame contiene una columna de tipo Array [Double]. Lanza una excepción ClassCastException cuando intento recuperarlo en una función map (). El siguiente código Scala genera una excepción. case class Dummy( x:Array[Double] ) val df ...
Lista de carpetas de Spark Scala en el directorio
Quiero enumerar todas las carpetas dentro de un directorio hdfs usando Scala / Spark. En Hadoop puedo hacer esto usando el comando:hadoop fs -ls hdfs://sandbox.hortonworks.com/demo/ Lo probé con: val conf = new Configuration() val fs = ...
Inicializar un RDD para vaciar
Tengo un RDD llamado JavaPairRDD<String, List<String>> existingRDD;Ahora necesito inicializar estoexistingRDD vaciar para que cuando obtenga los rdd reales pueda hacer una unión con estoexistingRDD. ¿Cómo inicializoexistingRDD a un RDD vacío ...