Resultados de la búsqueda a petición "pyspark"

Tengo problemas con el esquema para que las tablas de Hive no estén sincronizadas entre Spark y Hive en un clúster Mapr con Spark 2.1.0 y Hive 2.1.1. Necesito tratar de resolver este problema específicamente para las tablas administradas, pero ...

windows python pycharm

4 la respuesta

java.io.IOException: no se puede ejecutar el programa "python" con Spark en Pycharm (Windows)

Estoy tratando de escribir un código muy simple usando Spark en Pycharm y mi sistema operativo es Windows 8. He estado lidiando con varios problemas que de alguna manera lograron solucionar, excepto uno. Cuando ejecuto el código ...

apache-spark python

1 la respuesta

Escribir datos a Redis desde PySpark

En Scala, escribiríamos un RDD a Redis así: datardd.foreachPartition(iter => { val r = new RedisClient("hosturl", 6379) iter.foreach(i => { val (str, it) = i val map = it.toMap r.hmset(str, map) }) }) Intenté hacer esto en PySpark ...

Etiquetas Populares

saxon tabpage clickjacking gevent signing solr-schema h,tml sticky type-families syscache qthread surefire error-reporting sse2 executorservice appdata matcher horizontalscrollview jet amazon-sqs

apache-spark dataframe apache-spark-sql python

4 la respuesta

cómo cambiar una columna de marco de datos de tipo de cadena a tipo doble en pyspark

Tengo un marco de datos con una columna como String. Quería cambiar el tipo de columna a Tipo doble en PySpark. El siguiente es el camino que hice: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...

python apache-spark

3 la respuesta

Cómo cambiar las propiedades de SparkContext en la sesión interactiva de PySpark

¿Cómo puedo cambiar spark.driver.maxResultSize en el shell interactivo pyspark? He usado el siguiente código from pyspark import SparkConf, SparkContext conf = (SparkConf() .set("spark.driver.maxResultSize", "10g")) sc.stop() ...

apache-spark cassandra azure-data-factory

2 la respuesta

usar el paquete spark cassandra en Azure Data Factory

Creé un script pyspark que funciona bien cuando lo ejecuto conspark-submit: spark-submit --packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.6 --conf spark.cassandra.connection.host=12.34.56.68 test_cassandra.pyComo estoy trabajando ...

apache-spark python

1 la respuesta

¿Cómo procesar RDDs usando una clase Python?

Estoy implementando un modelo en Spark como una clase de python, y cada vez que intento asignar un método de clase a un RDD, falla. Mi código real es más complicado, pero esta versión simplificada es el núcleo del problema: class model(object): ...

python apache-spark-sql pyspark-sql apache-spark

1 la respuesta

PySpark: tome el promedio de una columna después de usar la función de filtro

Estoy usando el siguiente código para obtener la edad promedio de las personas cuyo salario es mayor que algún umbral. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})la edad de la columna es numérica (flotante) pero todavía recibo ...

apache-spark python rdd

1 la respuesta

Pasar funciones de clase a PySpark RDD

Tengo una clase llamada some_class () en un archivo de Python aquí: /some-folder/app/bin/file.pyLo estoy importando a mi código aquí: /some-folder2/app/code/file2.pyPor import sys sys.path.append('/some-folder/app/bin') from file import ...

sql window-functions apache-spark apache-spark-sql

1 la respuesta

SparkSQL - ¿Función de retraso?

Veo en estoPublicación de DataBricks [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , hay soporte para funciones de ventana en SparkSql, en particular estoy tratando de usar la función de ventana lag ...

Página 32 de 46

30 313233 34

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "pyspark"

Etiquetas Populares