Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Valor del acumulador de chispas no leído por tarea

Estoy inicializando un acumulador final Accumulator<Integer> accum = sc.accumulator(0); Y luego, mientras estoy en la función de mapa, intento incrementar el acumulador, luego uso el valor del acumulador para establecer una ...

5 la respuesta

Excepción de chispa: la tarea falló al escribir filas

Estoy leyendo archivos de texto y convirtiéndolos en archivos de parquet. Lo estoy haciendo usando el código de chispa. Pero cuando intento ejecutar el código obtengo la siguiente excepción org.apache.spark.SparkException: Job aborted due to ...

2 la respuesta

¿Cómo evaluar el modelo spark.ml sin DataFrames / SparkContext?

Con Spark MLLib, construiría un modelo (comoRandomForest), y luego fue posible evaluarlo fuera de Spark cargando el modelo y usandopredict en él pasando un vector de características. Parece que con Spark ML,predict ahora se llamatransform y solo ...

3 la respuesta

¿Debo preinstalar paquetes cran r en nodos de trabajo cuando uso sparkr

Quiero usar paquetes r en cran comoforecast etc con sparkr y cumplir después de dos problemas. ¿Debo preinstalar todos esos paquetes en los nodos de trabajo? Pero cuando leo el código fuente de chispaEste ...

2 la respuesta

¿Cómo obtener probabilidades de clasificación de MultilayerPerceptronClassifier?

Esto parece más relacionado con:Cómo obtener la probabilidad por instancia en los modelos de clasificación en ...

1 la respuesta

¿Cómo filtrar según el valor de la matriz en PySpark?

Mi esquema: |-- Canonical_URL: string (nullable = true) |-- Certifications: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- Certification_Authority: string (nullable = true) | | |-- End: string (nullable = true) | | ...

1 la respuesta

Convertir una cadena al doble en un marco de datos

He construido un marco de datos usandoconcat que produce una cadena import sqlContext.implicits._ val df = sc.parallelize(Seq((1.0, 2.0), (3.0, 4.0))).toDF("k", "v") df.registerTempTable("df") val dfConcat = df.select(concat($"k", lit(","), ...

1 la respuesta

¿Spark-sql admite múltiples delimitadores en los datos de entrada?

Tengo datos de entrada con múltiples delimitadores de un solo carácter como se indica a continuación: col1data1"col2data1;col3data1"col4data1 col1data2"col2data2;col3data2"col4data2 col1data3"col2data3;col3data3"col4data3En los datos anteriores, ...

2 la respuesta

Suma de valores de PairRDD

Tengo un RDD de tipo: dataset :org.apache.spark.rdd.RDD[(String, Double)] = MapPartitionRDD[26]Que es equivalente a(Pedro, 0.0833), (Hello, 0.001828) ... Me gustaría resumir todo, el valor,0.0833+0.001828.. Pero no puedo encontrar una solución ...

6 la respuesta

Hacer histograma con la columna Spark DataFrame

Estoy tratando de hacer un histograma con una columna de un marco de datos que se parece a DataFrame[C0: int, C1: int, ...]Si tuviera que hacer un histograma con la columna C1, ¿qué debería hacer? Algunas cosas que he intentado ...