Resultados de la búsqueda a petición "pyspark"

1 la respuesta

¿La opción ignorar de la función jdbc de Pyspark DataFrameWriter ignora toda la transacción o solo ofende las filas?

El PysparkDataFrameWriter la clase tiene unjdbc función [http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter.jdbc] para escribir un marco de datos en sql. Esta función tiene un--ignore opción que dice la ...

1 la respuesta

¿Cómo elimino los tweets vacíos usando filter () en pyspark?

¿Cómo elimino los tweets vacíos usandofilter() en pyspark? He hecho lo siguiente tweets = sc.textFile(.....) tweets.count()el resultado me da 13995. Sin embargo, cuando importé t, los datos de mongodb mostraron 11186 Parece que no puedo aplicar ...

1 la respuesta

PySpark: calcule el máximo de filas del subconjunto de columnas y agregue a un marco de datos existente

Me gustaría calcular el máximo de un subconjunto de columnas para cada fila y agregarlo como una nueva columna para el existenteDataframe. Logré hacer esto de una manera muy incómoda: def add_colmax(df,subset_columns,colnm): ''' calculate the ...

1 la respuesta

¿Cómo ejecutar varias instancias de Spark 2.0 a la vez (en múltiples computadoras portátiles Jupyter)?

Tengo un script que convenientemente me permite usar Spark en un cuaderno Jupyter. Esto es genial, excepto cuando ejecuto comandos de chispa en un segundo bloc de notas (por ejemplo, para probar algunos trabajos de memoria virtual). Recibo un ...

1 la respuesta

¿Cómo obtener los mejores parámetros después de sintonizar mediante pyspark.ml.tuning.TrainValidationSplit?

Estoy tratando de ajustar los hiperparámetros de un Spark (PySpark)ALS modelo porTrainValidationSplit. Funciona bien, pero quiero saber qué combinación de hiperparámetros es la mejor. ¿Cómo obtener los mejores parámetros después de la ...

3 la respuesta

Cómo convertir todas las columnas del marco de datos a cadena

Tengo un marco de datos de tipo mixto. Estoy leyendo este marco de datos de la tabla de la colmena usandospark.sql('select a,b,c from table') mando. Algunas columnas son int, bigint, double y otras son string. Hay 32 columnas en total. ¿Hay ...

1 la respuesta

Consideraciones de seguridad de Spark SQL

¿Cuáles son las consideraciones de seguridad al aceptar y ejecutar consultas SQL arbitrarias de chispa? Imagine la siguiente configuración: Dos archivos en hdfs se registran como tablasa_secrets yb_secrets: # must only be accessed by clients ...

3 la respuesta

¿Cómo adjuntar a un archivo csv usando df.write.csv en pyspark?

Estoy tratando de agregar datos a mi archivo csv usandodf.write.csv. Esto es lo que hice después de seguir el documento de ...

1 la respuesta

PySpark Cómo leer CSV en Dataframe y manipularlo

Soy bastante nuevo en pyspark y estoy tratando de usarlo para procesar un gran conjunto de datos que se guarda como un archivo csv. Me gustaría leer el archivo CSV en el marco de datos de chispa, soltar algunas columnas y agregar nuevas columnas. ...

2 la respuesta

No se puede convertir el tipo <clase 'pyspark.ml.linalg.SparseVector'> en Vector

Dado mi objeto pyspark Row: >>> row Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})) >>> row.clicked 0 >>> row.features SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}) >>> type(row.features) <class ...