Resultados de la búsqueda a petición "pyspark"
El esquema de la tabla Spark y Hive no está sincronizado después de una sobrescritura externa
Tengo problemas con el esquema para que las tablas de Hive no estén sincronizadas entre Spark y Hive en un clúster Mapr con Spark 2.1.0 y Hive 2.1.1. Necesito tratar de resolver este problema específicamente para las tablas administradas, pero ...
java.io.IOException: no se puede ejecutar el programa "python" con Spark en Pycharm (Windows)
Estoy tratando de escribir un código muy simple usando Spark en Pycharm y mi sistema operativo es Windows 8. He estado lidiando con varios problemas que de alguna manera lograron solucionar, excepto uno. Cuando ejecuto el código ...
Escribir datos a Redis desde PySpark
En Scala, escribiríamos un RDD a Redis así: datardd.foreachPartition(iter => { val r = new RedisClient("hosturl", 6379) iter.foreach(i => { val (str, it) = i val map = it.toMap r.hmset(str, map) }) }) Intenté hacer esto en PySpark ...
cómo cambiar una columna de marco de datos de tipo de cadena a tipo doble en pyspark
Tengo un marco de datos con una columna como String. Quería cambiar el tipo de columna a Tipo doble en PySpark. El siguiente es el camino que hice: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...
Cómo cambiar las propiedades de SparkContext en la sesión interactiva de PySpark
¿Cómo puedo cambiar spark.driver.maxResultSize en el shell interactivo pyspark? He usado el siguiente código from pyspark import SparkConf, SparkContext conf = (SparkConf() .set("spark.driver.maxResultSize", "10g")) sc.stop() ...
usar el paquete spark cassandra en Azure Data Factory
Creé un script pyspark que funciona bien cuando lo ejecuto conspark-submit: spark-submit --packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.6 --conf spark.cassandra.connection.host=12.34.56.68 test_cassandra.pyComo estoy trabajando ...
¿Cómo procesar RDDs usando una clase Python?
Estoy implementando un modelo en Spark como una clase de python, y cada vez que intento asignar un método de clase a un RDD, falla. Mi código real es más complicado, pero esta versión simplificada es el núcleo del problema: class model(object): ...
PySpark: tome el promedio de una columna después de usar la función de filtro
Estoy usando el siguiente código para obtener la edad promedio de las personas cuyo salario es mayor que algún umbral. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})la edad de la columna es numérica (flotante) pero todavía recibo ...
Pasar funciones de clase a PySpark RDD
Tengo una clase llamada some_class () en un archivo de Python aquí: /some-folder/app/bin/file.pyLo estoy importando a mi código aquí: /some-folder2/app/code/file2.pyPor import sys sys.path.append('/some-folder/app/bin') from file import ...
SparkSQL - ¿Función de retraso?
Veo en estoPublicación de DataBricks [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , hay soporte para funciones de ventana en SparkSql, en particular estoy tratando de usar la función de ventana lag ...