Resultados de la búsqueda a petición "apache-spark"

Quiero crear una tubería de procesamiento de datos en AWS para eventualmente usar los datos procesados para Machine Learning. Tengo un script Scala que toma datos sin procesar de S3, los procesa y los escribe en HDFS o incluso S3 conSpark-CSV. ...

pivot transpose python

6 la respuesta

Transponer columna a fila con Spark

Estoy tratando de transponer algunas columnas de mi tabla a la fila. Estoy usando Python y Spark 1.5.0. Aquí está mi tabla inicial: +-----+-----+-----+-------+ | A |col_1|col_2|col_...| +-----+-------------------+ | 1 | 0.0| 0.6| ... | | 2 | ...

apache-spark-sql catalyst query-optimization sql

2 la respuesta

Comprender el plan físico de chispa

Estoy tratando de entender los planes físicos en spark pero no entiendo algunas partes porque parecen diferentes de los rdbms tradicionales. Por ejemplo, en este plan a continuación, es un plan sobre una consulta sobre una tabla de colmena. La ...

spark-dataframe scala json

1 la respuesta

¿Cómo dejar que Spark analice un campo String escapado JSON como un objeto JSON para inferir la estructura adecuada en DataFrames?

Tengo como entrada un conjunto de archivos formateados como un solo objeto JSON por línea. El problema, sin embargo, es que un campo en estos objetos JSON es una cadena con escape JSON. Ejemplo { "id":1, "name":"some name", ...

spark-dataframe apache-spark-sql

5 la respuesta

¿Cómo importar múltiples archivos csv en una sola carga?

Considere que tengo un esquema definido para cargar 10 archivos csv en una carpeta. ¿Hay alguna manera de cargar tablas automáticamente usando Spark SQL? Sé que esto se puede realizar mediante el uso de un marco de datos individual para cada ...

apache-spark-mllib pyspark

1 la respuesta

Multiplicación de Spark Matrix con Python

Estoy tratando de hacer una matriz de multiplicación usando Apache Spark y Python. Aquí están mis datos from pyspark.mllib.linalg.distributed import RowMatrixMi RDD de vectores rows_1 = sc.parallelize([[1, 2], [4, 5], [7, 8]]) rows_2 = ...

apache-spark-ml

1 la respuesta

LinearRegression scala.MatchError:

Recibo un scala.MatchError cuando uso un ParamGridBuilder en Spark 1.6.1 y 2.0 val paramGrid = new ParamGridBuilder() .addGrid(lr.regParam, Array(0.1, 0.01)) .addGrid(lr.fitIntercept) .addGrid(lr.elasticNetParam, Array(0.0, 0.5, 1.0)) .build()El ...

apache-spark-sql uuid

2 la respuesta

Agregue una nueva columna a un marco de datos. Nueva columna quiero que sea un generador de UUID

Quiero agregar una nueva columna a un Dataframe, un generador de UUID. El valor de UUID se verá algo así21534cf7-cff9-482a-a3a8-9e7244240da7 Mi investigación: He intentado conwithColumn método en chispa. val DF2 = DF1.withColumn("newcolname", ...

pandas spark-dataframe python

3 la respuesta

Convertir el marco de datos de Pandas en error de marco de datos de Spark

Estoy tratando de convertir Pandas DF en Spark One. Cabeza del ...

dataframe pyspark null

3 la respuesta

¿Cómo reemplazo un valor de cadena con un NULL en PySpark?

Quiero hacer algo como esto: df.replace('empty-value', None, 'NAME')Básicamente, quiero reemplazar algún valor con NULL. pero no acepta ninguno en esta función. ¿Cómo puedo hacer esto?

Página 11 de 165

9 101112 13

Resultados de la búsqueda a petición "apache-spark"

Combinar archivos CSV de salida de Spark con un solo encabezado

Transponer columna a fila con Spark

Comprender el plan físico de chispa

Etiquetas Populares

¿Cómo dejar que Spark analice un campo String escapado JSON como un objeto JSON para inferir la estructura adecuada en DataFrames?

¿Cómo importar múltiples archivos csv en una sola carga?

Multiplicación de Spark Matrix con Python

LinearRegression scala.MatchError:

Agregue una nueva columna a un marco de datos. Nueva columna quiero que sea un generador de UUID

Convertir el marco de datos de Pandas en error de marco de datos de Spark

¿Cómo reemplazo un valor de cadena con un NULL en PySpark?

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares