Resultados de la búsqueda a petición "pyspark"
Integre PySpark con Jupyter Notebook
Estoy siguiendo estositio [https://www.dataquest.io/blog/pyspark-installation-guide/]para instalar Jupyter Notebook, PySpark e integrar ambos. Cuando necesitaba crear el "perfil de Jupyter", leí que los "perfiles de Jupyter" ya no existen. ...
Pyspark: muestra el histograma de una columna de marco de datos
En el marco de datos de pandas, estoy usando el siguiente código para trazar el histograma de una columna: my_df.hist(column = 'field_1')¿Hay algo que pueda lograr el mismo objetivo en el marco de datos pyspark? (Estoy en el cuaderno de Jupyter) ...
Pyspark: función de ventana personalizada
Actualmente estoy tratando de extraer series de ocurrencias consecutivas en un marco de datos PySpark y ordenarlas / clasificarlas como se muestra a continuación (por conveniencia, he ordenado el marco de datos inicial ...
Aplicar una función a una sola columna de un csv en Spark
Usando Spark, estoy leyendo un csv y quiero aplicar una función a una columna en el csv. Tengo un código que funciona pero es muy hacky. ¿Cuál es la forma apropiada de hacer esto? Mi código SparkContext().addPyFile("myfile.py") spark = ...
Lectura de archivos csv con campos entre comillas que contienen comas incrustadas
Estoy leyendo un archivo csv en Pyspark de la siguiente manera: df_raw=spark.read.option("header","true").csv(csv_path)Sin embargo, el archivo de datos ha citado campos con comas incrustadas que no deben tratarse como comas. ¿Cómo puedo manejar ...
¿Cómo desactivar la notación científica en pyspark?
Como resultado de alguna agregación, se me ocurrió el siguiente cuadro de chispa: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | ...
¿Cómo hacer la unión externa izquierda en spark sql?
Estoy tratando de hacer una unión externa izquierda en spark (1.6.2) y no funciona. Mi consulta sql es así: sqlContext.sql("select t.type, t.uuid, p.uuid from symptom_type t LEFT JOIN plugin p ON t.uuid = p.uuid where t.created_year = 2016 and ...
Pyspark agregar variable de entorno ejecutor
¿Es posible agregar un valor al PYTHONPATH de un trabajador en chispa? Sé que es posible ir a cada nodo de trabajo, configurar el archivo spark-env.sh y hacerlo, pero quiero un enfoque más flexible Estoy tratando de usar el método ...
Operador LIKE de marco de datos Pyspark
¿Cuál es el equivalente en Pyspark para el operador LIKE? Por ejemplo, me gustaría hacer: SELECT * FROM table WHERE column LIKE "*somestring*";buscando algo fácil como esto (pero esto no ...
PySpark: agregue una nueva columna anidada o cambie el valor de las columnas anidadas existentes
Supongamos que tengo un archivo json con líneas en la siguiente estructura: { "a": 1, "b": { "bb1": 1, "bb2": 2 } }Quiero cambiar el valor de la clavebb1 o agregue una nueva clave, como:bb3. Actualmente, uso spark.read.json para cargar el ...