Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Spark ML VectorAssembler devuelve resultados extraños

Estoy experimentando un comportamiento muy extraño deVectorAssembler y me preguntaba si alguien más ha visto esto. Mi escenario es bastante sencillo. Analizo datos de unCSV archivo donde tengo algún estándarInt yDouble campos y también calculo ...

1 la respuesta

PySpark: calcule el máximo de filas del subconjunto de columnas y agregue a un marco de datos existente

Me gustaría calcular el máximo de un subconjunto de columnas para cada fila y agregarlo como una nueva columna para el existenteDataframe. Logré hacer esto de una manera muy incómoda: def add_colmax(df,subset_columns,colnm): ''' calculate the ...

3 la respuesta

Definición del esquema DataFrame para una tabla con 1500 columnas en Spark

Tengo una tabla con alrededor de 1500 columnas en SQL Server. Necesito leer los datos de esta tabla y luego convertirlos al formato de tipo de datos adecuado y luego insertar los registros en Oracle DB. ¿Cuál es la mejor manera de definir el ...

2 la respuesta

Cómo usar SQLContext y SparkContext dentro de foreachPartition

Quiero usar SparkContext y SQLContext dentroforeachPartition, pero no puede hacerlo debido a un error de serialización. Sé que ambos objetos no son serializables, pero pensé queforeachPartition se ejecuta en el maestro, donde Spark Context y ...

2 la respuesta

Diferencia entre === null y isNull en Spark DataDrame

Estoy un poco confundido con la diferencia cuando estamos usando df.filter(col("c1") === null) and df.filter(col("c1").isNull)El mismo marco de datos que obtengo cuenta en === nulo pero cero cuenta en isNull. Por favor, ayúdame a entender la ...

1 la respuesta

¿Cómo obtener los mejores parámetros después de sintonizar mediante pyspark.ml.tuning.TrainValidationSplit?

Estoy tratando de ajustar los hiperparámetros de un Spark (PySpark)ALS modelo porTrainValidationSplit. Funciona bien, pero quiero saber qué combinación de hiperparámetros es la mejor. ¿Cómo obtener los mejores parámetros después de la ...

1 la respuesta

¿Cómo funciona el particionador de rango en Spark?

No tengo muy claro cómo funciona el particionador de rango en Spark. Utiliza (Muestreo de yacimientos) para tomar muestras. Y estaba confundido por la forma de calcular los límites de la entrada. // This is the sample size we need to have ...

1 la respuesta

NLineInputFormat no funciona en Spark

Lo que quiero es básicamente que cada elemento de datos consista en 10 líneas. Sin embargo, con el siguiente código, cada elemento sigue siendo una línea. ¿Qué error estoy haciendo aquí? val conf = new SparkConf().setAppName("MyApp") ...

2 la respuesta

Spark UDF llamado más de una vez por registro cuando DF tiene demasiadas columnas

Estoy usando Spark 1.6.1 y encuentro un comportamiento extraño: estoy ejecutando un UDF con algunos cálculos pesados (simulaciones físicas) en un marco de datos que contiene algunos datos de entrada, y construyendo un marco de datos de resultados ...

3 la respuesta

¿Cómo adjuntar a un archivo csv usando df.write.csv en pyspark?

Estoy tratando de agregar datos a mi archivo csv usandodf.write.csv. Esto es lo que hice después de seguir el documento de ...