Resultados de la búsqueda a petición "pyspark"
Equivalente de chispas de IF y luego ELSE
He visto esta pregunta anteriormente aquí y he tomado lecciones de eso. Sin embargo, no estoy seguro de por qué recibo un error cuando siento que debería funcionar. Quiero crear una nueva columna en Spark existenteDataFrame por algunas ...
¿Cómo acceder al elemento de una columna VectorUDT en un Spark DataFrame?
Tengo un marco de datosdf con unVectorUDT columna llamadafeatures. ¿Cómo obtengo un elemento de la columna, digamos primer elemento? He intentado hacer lo siguiente from pyspark.sql.functions import udf first_elem_udf = udf(lambda ...
Archivo de configuración para definir la estructura del esquema JSON en PySpark
He creado una aplicación PySpark que lee el archivo JSON en un marco de datos a través de un esquema definido. ejemplo de código a continuación schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), ...
¿Cómo conectar HBase y Spark usando Python?
Tengo una tarea vergonzosamente paralela para la cual uso Spark para distribuir los cálculos. Estos cálculos están en Python, y uso PySpark para leer y preprocesar los datos. Los datos de entrada a mi tarea se almacenan en ...
Usando grafismos con PyCharm
Pasé casi 2 días navegando por Internet y no pude solucionar este problema. Estoy intentando instalar elpaquete de gráficos [https://spark-packages.org/package/graphframes/graphframes](Versión: 0.2.0-spark2.0-s_2.11) para ejecutar con spark a ...
Hacia la limitación del gran RDD
Estoy leyendo muchas imágenes y me gustaría trabajar en un pequeño subconjunto de ellas para desarrollarlas. Como resultado, estoy tratando de entender cómo Chispa - chispear [/questions/tagged/spark]ypitón [/questions/tagged/python] podría hacer ...
Spark: rendimiento de la consulta PySpark + Cassandra
He configurado Spark 2.0 y Cassandra 3.0 en una máquina local (8 núcleos, 16 gb de ram) para fines de prueba y editadospark-defaults.conf como sigue: spark.python.worker.memory 1g spark.executor.cores 4 spark.executor.instances ...
Spark 2.0.0 leyendo datos json con esquema variable
Estoy tratando de procesar un mes de tráfico del sitio web, que se almacena en un depósito S3 como json (un objeto json por línea / hit de tráfico del sitio web). La cantidad de datos es lo suficientemente grande como para no poder pedirle a ...
Spark RDD: ¿Cómo calcular las estadísticas de manera más eficiente?
Suponiendo la existencia de un RDD de tuplas similar al siguiente: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...¿Cuál es la forma más eficiente (e idealmente distribuida) de calcular las estadísticas correspondientes ...
Apache spark que trata con declaraciones de casos
Estoy tratando de transformar el código SQL en código PySpark y encontré algunas declaraciones SQL. No sé cómo abordar las declaraciones de casos en pyspark? Estoy planeando crear un RDD y luego usar rdd.map y luego hacer algunas verificaciones ...