Resultados de la búsqueda a petición "apache-spark"
Valor del acumulador de chispas no leído por tarea
Estoy inicializando un acumulador final Accumulator<Integer> accum = sc.accumulator(0); Y luego, mientras estoy en la función de mapa, intento incrementar el acumulador, luego uso el valor del acumulador para establecer una ...
Excepción de chispa: la tarea falló al escribir filas
Estoy leyendo archivos de texto y convirtiéndolos en archivos de parquet. Lo estoy haciendo usando el código de chispa. Pero cuando intento ejecutar el código obtengo la siguiente excepción org.apache.spark.SparkException: Job aborted due to ...
¿Cómo evaluar el modelo spark.ml sin DataFrames / SparkContext?
Con Spark MLLib, construiría un modelo (comoRandomForest), y luego fue posible evaluarlo fuera de Spark cargando el modelo y usandopredict en él pasando un vector de características. Parece que con Spark ML,predict ahora se llamatransform y solo ...
¿Debo preinstalar paquetes cran r en nodos de trabajo cuando uso sparkr
Quiero usar paquetes r en cran comoforecast etc con sparkr y cumplir después de dos problemas. ¿Debo preinstalar todos esos paquetes en los nodos de trabajo? Pero cuando leo el código fuente de chispaEste ...
¿Cómo obtener probabilidades de clasificación de MultilayerPerceptronClassifier?
Esto parece más relacionado con:Cómo obtener la probabilidad por instancia en los modelos de clasificación en ...
¿Cómo filtrar según el valor de la matriz en PySpark?
Mi esquema: |-- Canonical_URL: string (nullable = true) |-- Certifications: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- Certification_Authority: string (nullable = true) | | |-- End: string (nullable = true) | | ...
Convertir una cadena al doble en un marco de datos
He construido un marco de datos usandoconcat que produce una cadena import sqlContext.implicits._ val df = sc.parallelize(Seq((1.0, 2.0), (3.0, 4.0))).toDF("k", "v") df.registerTempTable("df") val dfConcat = df.select(concat($"k", lit(","), ...
¿Spark-sql admite múltiples delimitadores en los datos de entrada?
Tengo datos de entrada con múltiples delimitadores de un solo carácter como se indica a continuación: col1data1"col2data1;col3data1"col4data1 col1data2"col2data2;col3data2"col4data2 col1data3"col2data3;col3data3"col4data3En los datos anteriores, ...
Suma de valores de PairRDD
Tengo un RDD de tipo: dataset :org.apache.spark.rdd.RDD[(String, Double)] = MapPartitionRDD[26]Que es equivalente a(Pedro, 0.0833), (Hello, 0.001828) ... Me gustaría resumir todo, el valor,0.0833+0.001828.. Pero no puedo encontrar una solución ...
Hacer histograma con la columna Spark DataFrame
Estoy tratando de hacer un histograma con una columna de un marco de datos que se parece a DataFrame[C0: int, C1: int, ...]Si tuviera que hacer un histograma con la columna C1, ¿qué debería hacer? Algunas cosas que he intentado ...