Resultados de la búsqueda a petición "pyspark"
¿Cómo agregar múltiples columnas usando UDF?
Pregunta Quiero agregar los valores de retorno de un UDF a un marco de datos existente en columnas separadas. ¿Cómo logro esto de una manera ingeniosa? Aquí hay un ejemplo de lo que tengo hasta ahora. from pyspark.sql.functions import udf from ...
Problema con UDF en una columna de Vectores en PySpark DataFrame
Tengo problemas para usar un UDF en una columna de Vectores en PySpark que se puede ilustrar aquí: from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions import udf ...
Agregar Jar al pyspark independiente
Estoy lanzando un programa pyspark: $ export SPARK_HOME= $ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip $ pythonY el código py: from pyspark import SparkContext, ...
¿Cómo elimino los tweets vacíos usando filter () en pyspark?
¿Cómo elimino los tweets vacíos usandofilter() en pyspark? He hecho lo siguiente tweets = sc.textFile(.....) tweets.count()el resultado me da 13995. Sin embargo, cuando importé t, los datos de mongodb mostraron 11186 Parece que no puedo aplicar ...
Consideraciones de seguridad de Spark SQL
¿Cuáles son las consideraciones de seguridad al aceptar y ejecutar consultas SQL arbitrarias de chispa? Imagine la siguiente configuración: Dos archivos en hdfs se registran como tablasa_secrets yb_secrets: # must only be accessed by clients ...
Cómo guardar / insertar cada DStream en una tabla permanente
He estado enfrentando un problema con "Spark Streaming" sobre la inserción de la salida Dstream en unpermanente Tabla SQL. Me gustaría insertar cada salida DStream (proveniente de un solo lote que genera procesos) en una tabla única. He estado ...
Problemas con la función redonda de Pyspark
Tengo algunos problemas para que funcione la función de redondeo en pyspar, k: tengo el siguiente bloque de código, donde estoy tratando de redondear elnew_bid columna a 2 decimales y cambie el nombre de la columna comobid luego - ...
Spark 2.0.0 leyendo datos json con esquema variable
Estoy tratando de procesar un mes de tráfico del sitio web, que se almacena en un depósito S3 como json (un objeto json por línea / hit de tráfico del sitio web). La cantidad de datos es lo suficientemente grande como para no poder pedirle a ...
obtener valor del marco de datos
En Scala puedo hacerget(#) ogetAs[Type](#) para obtener valores de un marco de datos. ¿Cómo debo hacerlo enpyspark? Tengo un DataFrame de dos columnas:item(string) ysalesNum(integers). hago ungroupby ymean para obtener una media de esos números ...
¿Cómo usar Scala y Python en un mismo proyecto Spark?
¿Es eso posible canalizar?Spark RDDa Python? Porque necesito una biblioteca de Python para hacer algunos cálculos en mis datos, pero mi proyecto principal de Spark se basa en Scala. ¿Hay alguna manera de mezclarlos a ambos o dejar que Python ...