Resultados de la búsqueda a petición "pyspark"
Configuración autónoma de Spark que tiene múltiples ejecutores
Estoy tratando de configurar un servidor Spark 2.0 independiente para procesar una función de análisis en paralelo. Para hacer esto quiero tener un solo trabajador con múltiples ejecutores. Estoy usando : Spark 2.0 independiente8 núcleos24 gig ...
En Apache Spark 2.0.0, ¿es posible obtener una consulta de una base de datos externa (en lugar de tomar toda la tabla)?
Usando pyspark: from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .appName("spark play")\ .getOrCreate() df = spark.read\ .format("jdbc")\ .option("url", "jdbc:mysql://localhost:port")\ .option("dbtable", "schema.tablename")\ ...
Spark RDD a DataFrame Python
Estoy tratando de convertir el Spark RDD en un DataFrame. He visto la documentación y el ejemplo donde se pasa el esquema asqlContext.CreateDataFrame(rdd,schema) función. Pero tengo 38 columnas o campos y esto aumentará aún más. Si doy ...
¿Cómo encontrar la mediana en Apache Spark con Python Dataframe API?
Pyspark API proporciona muchas funciones agregadas, excepto la mediana. Spark 2 viene con aproximadamenteQuantile que proporciona cuantiles aproximados pero la mediana exacta es muy costosa de calcular. ¿Hay alguna forma más de Pyspark ...
Spark: Dataframe.subtract devuelve todo cuando la clave no es la primera en la fila
Estoy tratando de usarSQLContext.subtract () [https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.subtract] en Spark 1.6.1 para eliminar filas de un marco de datos basado en una columna de otro marco de datos. ...
Operador de comparación en PySpark (no igual /! =)
Estoy tratando de obtener todas las filas en un marco de datos donde dos banderas están configuradas en '1' y, posteriormente, todas aquellas en las que solo una de las dos está configurada en '1' y la otraNO ES IGUALa 1' Con el siguiente ...
PySpark: StructField (..., ..., False) siempre devuelve `nullable = true` en lugar de` nullable = false`
Soy nuevo en PySpark y enfrento un problema extraño. Estoy tratando de establecer alguna columna en no anulable mientras se carga un conjunto de datos CSV. Puedo reproducir mi caso con un conjunto de datos muy pequeño (test.csv): col1,col2,col3 ...
¿Cómo limitar la autoasignación dinámica de recursos en el clúster Hadoop bajo Yarn?
En nuestro clúster de Hadoop que se ejecuta bajo Yarn, tenemos el problema de que algunas personas "más inteligentes" pueden consumir grandes cantidades de recursos configurando trabajos de Spark en portátiles pySpark Jupyter como: conf = ...
Aplicación de UDF en GroupedData en PySpark (con ejemplo de Python en funcionamiento)
Tengo este código de Python que se ejecuta localmente en un marco de datos de pandas: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name))Me gustaría ejecutar esto en PySpark, pero tengo problemas ...
Spark: ¿Cómo "reduceByKey" cuando las claves son matrices numpy que no son hashaable?
Tengo un RDD de elementos (clave, valor). Las claves son matrices NumPy. Las matrices NumPy no son hashable, y esto causa un problema cuando intento hacer unreduceByKey operación. ¿Hay alguna manera de proporcionar el contexto Spark con mi ...