Resultados de la búsqueda a petición "pyspark"

2 la respuesta

Integre PySpark con Jupyter Notebook

Estoy siguiendo estositio [https://www.dataquest.io/blog/pyspark-installation-guide/]para instalar Jupyter Notebook, PySpark e integrar ambos. Cuando necesitaba crear el "perfil de Jupyter", leí que los "perfiles de Jupyter" ya no existen. ...

4 la respuesta

Pyspark: muestra el histograma de una columna de marco de datos

En el marco de datos de pandas, estoy usando el siguiente código para trazar el histograma de una columna: my_df.hist(column = 'field_1')¿Hay algo que pueda lograr el mismo objetivo en el marco de datos pyspark? (Estoy en el cuaderno de Jupyter) ...

2 la respuesta

Pyspark: función de ventana personalizada

Actualmente estoy tratando de extraer series de ocurrencias consecutivas en un marco de datos PySpark y ordenarlas / clasificarlas como se muestra a continuación (por conveniencia, he ordenado el marco de datos inicial ...

1 la respuesta

Aplicar una función a una sola columna de un csv en Spark

Usando Spark, estoy leyendo un csv y quiero aplicar una función a una columna en el csv. Tengo un código que funciona pero es muy hacky. ¿Cuál es la forma apropiada de hacer esto? Mi código SparkContext().addPyFile("myfile.py") spark = ...

3 la respuesta

Lectura de archivos csv con campos entre comillas que contienen comas incrustadas

Estoy leyendo un archivo csv en Pyspark de la siguiente manera: df_raw=spark.read.option("header","true").csv(csv_path)Sin embargo, el archivo de datos ha citado campos con comas incrustadas que no deben tratarse como comas. ¿Cómo puedo manejar ...

1 la respuesta

¿Cómo desactivar la notación científica en pyspark?

Como resultado de alguna agregación, se me ocurrió el siguiente cuadro de chispa: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | ...

3 la respuesta

¿Cómo hacer la unión externa izquierda en spark sql?

Estoy tratando de hacer una unión externa izquierda en spark (1.6.2) y no funciona. Mi consulta sql es así: sqlContext.sql("select t.type, t.uuid, p.uuid from symptom_type t LEFT JOIN plugin p ON t.uuid = p.uuid where t.created_year = 2016 and ...

1 la respuesta

Pyspark agregar variable de entorno ejecutor

¿Es posible agregar un valor al PYTHONPATH de un trabajador en chispa? Sé que es posible ir a cada nodo de trabajo, configurar el archivo spark-env.sh y hacerlo, pero quiero un enfoque más flexible Estoy tratando de usar el método ...

7 la respuesta

Operador LIKE de marco de datos Pyspark

¿Cuál es el equivalente en Pyspark para el operador LIKE? Por ejemplo, me gustaría hacer: SELECT * FROM table WHERE column LIKE "*somestring*";buscando algo fácil como esto (pero esto no ...

1 la respuesta

PySpark: agregue una nueva columna anidada o cambie el valor de las columnas anidadas existentes

Supongamos que tengo un archivo json con líneas en la siguiente estructura: { "a": 1, "b": { "bb1": 1, "bb2": 2 } }Quiero cambiar el valor de la clavebb1 o agregue una nueva clave, como:bb3. Actualmente, uso spark.read.json para cargar el ...