Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

¿Cuál es el impacto en el rendimiento de la conversión entre `DataFrame`,` RDD` y viceversa?

Mientras que mi primer instinto es usarDataFrames para todo, simplemente no es posible: algunas operaciones son claramente más fáciles y / o funcionan mejor comoRDD operaciones, sin mencionar ciertas API comoGraphX solo trabajar enRDDs. Parece ...

1 la respuesta

consulta de actualización en Spark SQL

Me pregunto si puedo usar la consulta de actualización en sparksql como: sqlContext.sql("update users set name = '*' where name is null")Recibí el error: org.apache.spark.sql.AnalysisException: Unsupported language features in query:update ...

1 la respuesta

Lea el tema de Kafka en un trabajo por lotes de Spark

Estoy escribiendo un trabajo por lotes de Spark (v1.6.0) que lee un tema de Kafka. Para esto puedo usarorg.apache.spark.streaming.kafka.KafkaUtils#createRDD sin embargo, necesito establecer las compensaciones para todas las particiones y también ...

1 la respuesta

Cómo usar la capacidad programática de envío de chispas

Hay una característica algo reciente (primavera de 2015) aparentemente destinada a permitir el envío programático de un trabajo de chispa. Aquí está la ...

5 la respuesta

¿Cómo crear DataFrame de la Lista de Iterables de Scala?

Tengo el siguiente valor de Scala: val values: List[Iterable[Any]] = Traces().evaluate(features).toListy quiero convertirlo en un DataFrame. Cuando intento lo siguiente: sqlContext.createDataFrame(values)Tengo este error: error: overloaded ...

0 la respuesta

Typesafe Config en Spark

He definido una configuración predeterminada en mi aplicación Spark que está metida ensrc/main/resources/reference.conf. yo sueloConfigFactory.load() para obtener la configuración. Cuando ejecuto la aplicación conspark-submit recoge estos ...

1 la respuesta

Spark Dataframe groupBy con secuencia como claves argumentos [duplicado]

Esta pregunta ya tiene una respuesta aquí: Múltiples operaciones agregadas en la misma columna de un marco de datos de chispa [/questions/34954771/multiple-aggregate-operations-on-the-same-column-of-a-spark-dataframe] 2 respuestasTengo un ...

2 la respuesta

Comprender la función Spark RandomForest Importa los resultados

Estoy usandoRandomForest.featureImportances pero no entiendo el resultado de salida. Tengo 12 características, y esta es la salida que obtengo. Entiendo que esta podría no ser una pregunta específica de apache-spark pero no puedo encontrar ...

1 la respuesta

Cómo obtener precisión / recuperación usando CrossValidator para entrenar el modelo NaiveBayes usando Spark

Supongo que tengo una tubería como esta: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words") val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features") val idf = new ...

1 la respuesta

VectorAssembler no es compatible con la conversión de chispa scala tipo StringType

Tengo un marco de datos que contiene columnas de cadena y estoy planeando usarlo como entrada para k-means usando spark y scala. Estoy convirtiendo mis columnas de tipo cadena del marco de datos utilizando el siguiente método: val toDouble = ...