Resultados de la búsqueda a petición "apache-spark"
¿Cuál es el impacto en el rendimiento de la conversión entre `DataFrame`,` RDD` y viceversa?
Mientras que mi primer instinto es usarDataFrames para todo, simplemente no es posible: algunas operaciones son claramente más fáciles y / o funcionan mejor comoRDD operaciones, sin mencionar ciertas API comoGraphX solo trabajar enRDDs. Parece ...
consulta de actualización en Spark SQL
Me pregunto si puedo usar la consulta de actualización en sparksql como: sqlContext.sql("update users set name = '*' where name is null")Recibí el error: org.apache.spark.sql.AnalysisException: Unsupported language features in query:update ...
Lea el tema de Kafka en un trabajo por lotes de Spark
Estoy escribiendo un trabajo por lotes de Spark (v1.6.0) que lee un tema de Kafka. Para esto puedo usarorg.apache.spark.streaming.kafka.KafkaUtils#createRDD sin embargo, necesito establecer las compensaciones para todas las particiones y también ...
Cómo usar la capacidad programática de envío de chispas
Hay una característica algo reciente (primavera de 2015) aparentemente destinada a permitir el envío programático de un trabajo de chispa. Aquí está la ...
¿Cómo crear DataFrame de la Lista de Iterables de Scala?
Tengo el siguiente valor de Scala: val values: List[Iterable[Any]] = Traces().evaluate(features).toListy quiero convertirlo en un DataFrame. Cuando intento lo siguiente: sqlContext.createDataFrame(values)Tengo este error: error: overloaded ...
Typesafe Config en Spark
He definido una configuración predeterminada en mi aplicación Spark que está metida ensrc/main/resources/reference.conf. yo sueloConfigFactory.load() para obtener la configuración. Cuando ejecuto la aplicación conspark-submit recoge estos ...
Spark Dataframe groupBy con secuencia como claves argumentos [duplicado]
Esta pregunta ya tiene una respuesta aquí: Múltiples operaciones agregadas en la misma columna de un marco de datos de chispa [/questions/34954771/multiple-aggregate-operations-on-the-same-column-of-a-spark-dataframe] 2 respuestasTengo un ...
Comprender la función Spark RandomForest Importa los resultados
Estoy usandoRandomForest.featureImportances pero no entiendo el resultado de salida. Tengo 12 características, y esta es la salida que obtengo. Entiendo que esta podría no ser una pregunta específica de apache-spark pero no puedo encontrar ...
Cómo obtener precisión / recuperación usando CrossValidator para entrenar el modelo NaiveBayes usando Spark
Supongo que tengo una tubería como esta: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words") val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features") val idf = new ...
VectorAssembler no es compatible con la conversión de chispa scala tipo StringType
Tengo un marco de datos que contiene columnas de cadena y estoy planeando usarlo como entrada para k-means usando spark y scala. Estoy convirtiendo mis columnas de tipo cadena del marco de datos utilizando el siguiente método: val toDouble = ...