Resultados de la búsqueda a petición "pyspark"

2 la respuesta

Configuración autónoma de Spark que tiene múltiples ejecutores

Estoy tratando de configurar un servidor Spark 2.0 independiente para procesar una función de análisis en paralelo. Para hacer esto quiero tener un solo trabajador con múltiples ejecutores. Estoy usando : Spark 2.0 independiente8 núcleos24 gig ...

1 la respuesta

En Apache Spark 2.0.0, ¿es posible obtener una consulta de una base de datos externa (en lugar de tomar toda la tabla)?

Usando pyspark: from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .appName("spark play")\ .getOrCreate() df = spark.read\ .format("jdbc")\ .option("url", "jdbc:mysql://localhost:port")\ .option("dbtable", "schema.tablename")\ ...

2 la respuesta

Spark RDD a DataFrame Python

Estoy tratando de convertir el Spark RDD en un DataFrame. He visto la documentación y el ejemplo donde se pasa el esquema asqlContext.CreateDataFrame(rdd,schema) función. Pero tengo 38 columnas o campos y esto aumentará aún más. Si doy ...

1 la respuesta

¿Cómo encontrar la mediana en Apache Spark con Python Dataframe API?

Pyspark API proporciona muchas funciones agregadas, excepto la mediana. Spark 2 viene con aproximadamenteQuantile que proporciona cuantiles aproximados pero la mediana exacta es muy costosa de calcular. ¿Hay alguna forma más de Pyspark ...

1 la respuesta

Spark: Dataframe.subtract devuelve todo cuando la clave no es la primera en la fila

Estoy tratando de usarSQLContext.subtract () [https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.subtract] en Spark 1.6.1 para eliminar filas de un marco de datos basado en una columna de otro marco de datos. ...

2 la respuesta

Operador de comparación en PySpark (no igual /! =)

Estoy tratando de obtener todas las filas en un marco de datos donde dos banderas están configuradas en '1' y, posteriormente, todas aquellas en las que solo una de las dos está configurada en '1' y la otraNO ES IGUALa 1' Con el siguiente ...

1 la respuesta

PySpark: StructField (..., ..., False) siempre devuelve `nullable = true` en lugar de` nullable = false`

Soy nuevo en PySpark y enfrento un problema extraño. Estoy tratando de establecer alguna columna en no anulable mientras se carga un conjunto de datos CSV. Puedo reproducir mi caso con un conjunto de datos muy pequeño (test.csv): col1,col2,col3 ...

1 la respuesta

¿Cómo limitar la autoasignación dinámica de recursos en el clúster Hadoop bajo Yarn?

En nuestro clúster de Hadoop que se ejecuta bajo Yarn, tenemos el problema de que algunas personas "más inteligentes" pueden consumir grandes cantidades de recursos configurando trabajos de Spark en portátiles pySpark Jupyter como: conf = ...

3 la respuesta

Aplicación de UDF en GroupedData en PySpark (con ejemplo de Python en funcionamiento)

Tengo este código de Python que se ejecuta localmente en un marco de datos de pandas: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name))Me gustaría ejecutar esto en PySpark, pero tengo problemas ...

1 la respuesta

Spark: ¿Cómo "reduceByKey" cuando las claves son matrices numpy que no son hashaable?

Tengo un RDD de elementos (clave, valor). Las claves son matrices NumPy. Las matrices NumPy no son hashable, y esto causa un problema cuando intento hacer unreduceByKey operación. ¿Hay alguna manera de proporcionar el contexto Spark con mi ...