Resultados de la búsqueda a petición "apache-spark"

En el programa Apache Spark, ¿cómo sabemos qué parte del código se ejecutará en el programa controlador y qué parte del código se ejecutará en los nodos de trabajo? Con saludos

scala broadcast java spark-streaming

4 la respuesta

¿Cómo puedo actualizar una variable de transmisión en la transmisión por chispa?

Tengo, creo, un caso de uso relativamente común para la transmisión por chispa: Tengo una secuencia de objetos que me gustaría filtrar en función de algunos datos de referencia Inicialmente, pensé que esto sería algo muy simple de lograr usando ...

dataframe scala

2 la respuesta

Reemplazar valores nulos en Spark DataFrame

Vi una solución aquí, pero cuando lo intenté no me funciona. Primero importo un archivo cars.csv: val df = sqlContext.read .format("com.databricks.spark.csv") .option("header", "true") .load("/usr/local/spark/cars.csv")Que se parece a lo ...

random-forest apache-spark-mllib scala

2 la respuesta

Spark 1.5.1, MLLib Probabilidad de bosque aleatorio

Estoy usando Spark 1.5.1 con MLLib. Construí un modelo de bosque aleatorio usando MLLib, ahora uso el modelo para hacer predicciones. Puedo encontrar la categoría de predicción (0.0 o 1.0) usando la función .predict. Sin embargo, no puedo ...

apache-spark-ml apache-spark-sql pca pyspark

1 la respuesta

Pyspark y PCA: ¿Cómo puedo extraer los vectores propios de esta PCA? ¿Cómo puedo calcular cuánta varianza están explicando?

Estoy reduciendo la dimensionalidad de unSpark DataFrame conPCA modelo con pyspark (utilizando elspark ml biblioteca) de la siguiente manera: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)dóndedata es unSpark ...

apache-spark-sql dataframe hdf5 pandas

1 la respuesta

¿Cómo maneja Spark DataFrame el Pandas DataFrame que es más grande que la memoria?

Ahora estoy aprendiendo Spark, y parece ser la solución de Big Data para Pandas Dataframe, pero tengo esta pregunta que me hace inseguro. Actualmente estoy almacenando marcos de datos Pandas que son más grandes que la memoria usando HDF5. HDF5 ...

hadoop pymongo mongodb python

4 la respuesta

Conseguir que Spark, Python y MongoDB trabajen juntos

Tengo dificultades para lograr que estos componentes se unan correctamente. Tengo Spark instalado y trabajando con éxito, puedo ejecutar trabajos localmente, de forma independiente y también a través de YARN. He seguido los pasos recomendados ...

arrays apache-spark-sql classcastexception scala

1 la respuesta

Columna de matriz de acceso en Spark

Un Spark DataFrame contiene una columna de tipo Array [Double]. Lanza una excepción ClassCastException cuando intento recuperarlo en una función map (). El siguiente código Scala genera una excepción. case class Dummy( x:Array[Double] ) val df ...

hadoop scala

7 la respuesta

Lista de carpetas de Spark Scala en el directorio

Quiero enumerar todas las carpetas dentro de un directorio hdfs usando Scala / Spark. En Hadoop puedo hacer esto usando el comando:hadoop fs -ls hdfs://sandbox.hortonworks.com/demo/ Lo probé con: val conf = new Configuration() val fs = ...

java rdd

6 la respuesta

Inicializar un RDD para vaciar

Tengo un RDD llamado JavaPairRDD<String, List<String>> existingRDD;Ahora necesito inicializar estoexistingRDD vaciar para que cuando obtenga los rdd reales pueda hacer una unión con estoexistingRDD. ¿Cómo inicializoexistingRDD a un RDD vacío ...

Página 130 de 165

128 129130131 132

Resultados de la búsqueda a petición "apache-spark"

diferenciar el código del controlador y el código de trabajo en Apache Spark

¿Cómo puedo actualizar una variable de transmisión en la transmisión por chispa?

Reemplazar valores nulos en Spark DataFrame

Etiquetas Populares

Spark 1.5.1, MLLib Probabilidad de bosque aleatorio

Pyspark y PCA: ¿Cómo puedo extraer los vectores propios de esta PCA? ¿Cómo puedo calcular cuánta varianza están explicando?

¿Cómo maneja Spark DataFrame el Pandas DataFrame que es más grande que la memoria?

Conseguir que Spark, Python y MongoDB trabajen juntos

Columna de matriz de acceso en Spark

Lista de carpetas de Spark Scala en el directorio

Inicializar un RDD para vaciar

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares