Resultados de la búsqueda a petición "pyspark"
¿La opción ignorar de la función jdbc de Pyspark DataFrameWriter ignora toda la transacción o solo ofende las filas?
El PysparkDataFrameWriter la clase tiene unjdbc función [http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter.jdbc] para escribir un marco de datos en sql. Esta función tiene un--ignore opción que dice la ...
¿Cómo elimino los tweets vacíos usando filter () en pyspark?
¿Cómo elimino los tweets vacíos usandofilter() en pyspark? He hecho lo siguiente tweets = sc.textFile(.....) tweets.count()el resultado me da 13995. Sin embargo, cuando importé t, los datos de mongodb mostraron 11186 Parece que no puedo aplicar ...
PySpark: calcule el máximo de filas del subconjunto de columnas y agregue a un marco de datos existente
Me gustaría calcular el máximo de un subconjunto de columnas para cada fila y agregarlo como una nueva columna para el existenteDataframe. Logré hacer esto de una manera muy incómoda: def add_colmax(df,subset_columns,colnm): ''' calculate the ...
¿Cómo ejecutar varias instancias de Spark 2.0 a la vez (en múltiples computadoras portátiles Jupyter)?
Tengo un script que convenientemente me permite usar Spark en un cuaderno Jupyter. Esto es genial, excepto cuando ejecuto comandos de chispa en un segundo bloc de notas (por ejemplo, para probar algunos trabajos de memoria virtual). Recibo un ...
¿Cómo obtener los mejores parámetros después de sintonizar mediante pyspark.ml.tuning.TrainValidationSplit?
Estoy tratando de ajustar los hiperparámetros de un Spark (PySpark)ALS modelo porTrainValidationSplit. Funciona bien, pero quiero saber qué combinación de hiperparámetros es la mejor. ¿Cómo obtener los mejores parámetros después de la ...
Cómo convertir todas las columnas del marco de datos a cadena
Tengo un marco de datos de tipo mixto. Estoy leyendo este marco de datos de la tabla de la colmena usandospark.sql('select a,b,c from table') mando. Algunas columnas son int, bigint, double y otras son string. Hay 32 columnas en total. ¿Hay ...
Consideraciones de seguridad de Spark SQL
¿Cuáles son las consideraciones de seguridad al aceptar y ejecutar consultas SQL arbitrarias de chispa? Imagine la siguiente configuración: Dos archivos en hdfs se registran como tablasa_secrets yb_secrets: # must only be accessed by clients ...
¿Cómo adjuntar a un archivo csv usando df.write.csv en pyspark?
Estoy tratando de agregar datos a mi archivo csv usandodf.write.csv. Esto es lo que hice después de seguir el documento de ...
PySpark Cómo leer CSV en Dataframe y manipularlo
Soy bastante nuevo en pyspark y estoy tratando de usarlo para procesar un gran conjunto de datos que se guarda como un archivo csv. Me gustaría leer el archivo CSV en el marco de datos de chispa, soltar algunas columnas y agregar nuevas columnas. ...
No se puede convertir el tipo <clase 'pyspark.ml.linalg.SparseVector'> en Vector
Dado mi objeto pyspark Row: >>> row Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})) >>> row.clicked 0 >>> row.features SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}) >>> type(row.features) <class ...