Resultados de la búsqueda a petición "apache-spark"
Combinar archivos CSV de salida de Spark con un solo encabezado
Quiero crear una tubería de procesamiento de datos en AWS para eventualmente usar los datos procesados para Machine Learning. Tengo un script Scala que toma datos sin procesar de S3, los procesa y los escribe en HDFS o incluso S3 conSpark-CSV. ...
Transponer columna a fila con Spark
Estoy tratando de transponer algunas columnas de mi tabla a la fila. Estoy usando Python y Spark 1.5.0. Aquí está mi tabla inicial: +-----+-----+-----+-------+ | A |col_1|col_2|col_...| +-----+-------------------+ | 1 | 0.0| 0.6| ... | | 2 | ...
Comprender el plan físico de chispa
Estoy tratando de entender los planes físicos en spark pero no entiendo algunas partes porque parecen diferentes de los rdbms tradicionales. Por ejemplo, en este plan a continuación, es un plan sobre una consulta sobre una tabla de colmena. La ...
¿Cómo dejar que Spark analice un campo String escapado JSON como un objeto JSON para inferir la estructura adecuada en DataFrames?
Tengo como entrada un conjunto de archivos formateados como un solo objeto JSON por línea. El problema, sin embargo, es que un campo en estos objetos JSON es una cadena con escape JSON. Ejemplo { "id":1, "name":"some name", ...
¿Cómo importar múltiples archivos csv en una sola carga?
Considere que tengo un esquema definido para cargar 10 archivos csv en una carpeta. ¿Hay alguna manera de cargar tablas automáticamente usando Spark SQL? Sé que esto se puede realizar mediante el uso de un marco de datos individual para cada ...
Multiplicación de Spark Matrix con Python
Estoy tratando de hacer una matriz de multiplicación usando Apache Spark y Python. Aquí están mis datos from pyspark.mllib.linalg.distributed import RowMatrixMi RDD de vectores rows_1 = sc.parallelize([[1, 2], [4, 5], [7, 8]]) rows_2 = ...
LinearRegression scala.MatchError:
Recibo un scala.MatchError cuando uso un ParamGridBuilder en Spark 1.6.1 y 2.0 val paramGrid = new ParamGridBuilder() .addGrid(lr.regParam, Array(0.1, 0.01)) .addGrid(lr.fitIntercept) .addGrid(lr.elasticNetParam, Array(0.0, 0.5, 1.0)) .build()El ...
Agregue una nueva columna a un marco de datos. Nueva columna quiero que sea un generador de UUID
Quiero agregar una nueva columna a un Dataframe, un generador de UUID. El valor de UUID se verá algo así21534cf7-cff9-482a-a3a8-9e7244240da7 Mi investigación: He intentado conwithColumn método en chispa. val DF2 = DF1.withColumn("newcolname", ...
Convertir el marco de datos de Pandas en error de marco de datos de Spark
Estoy tratando de convertir Pandas DF en Spark One. Cabeza del ...
¿Cómo reemplazo un valor de cadena con un NULL en PySpark?
Quiero hacer algo como esto: df.replace('empty-value', None, 'NAME')Básicamente, quiero reemplazar algún valor con NULL. pero no acepta ninguno en esta función. ¿Cómo puedo hacer esto?