Resultados de la búsqueda a petición "spark-dataframe"
Grupo Pyspark Dataframe mediante filtrado
Tengo un marco de datos como a continuación cust_id req req_met ------- --- ------- 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1Tengo que mirar a los clientes, ver cuántos requisitos tienen y ver si han cumplido al menos ...
Problemas con la función redonda de Pyspark
Tengo algunos problemas para que funcione la función de redondeo en pyspar, k: tengo el siguiente bloque de código, donde estoy tratando de redondear elnew_bid columna a 2 decimales y cambie el nombre de la columna comobid luego - ...
Spark distancia coseno entre filas usando Dataframe
Tengo que calcular una distancia cosenoidal entre cada fila, pero no tengo idea de cómo hacerlo usando Spark API Dataframes con elegancia. La idea es calcular similitudes para cada fila (elementos) y tomar las 10 similitudes ...
Cómo comparar dos marcos de datos e imprimir columnas que son diferentes en escala
Tenemos dos marcos de datos aquí: el marco de datos esperado: +------+---------+--------+----------+-------+--------+ |emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site| +------+---------+--------+----------+-------+--------+ | 3| ...
Apache Spark Dataframe Groupby agg () para varias columnas
tengo unDataFrame con 3 columnas, es decirId, First Name, Last Name quiero aplicarGroupBy sobre la base deId y quiere coleccionarFirst Name, Last Name columna como lista. Ejemplo: tengo un DF como este +---+-------+--------+ |id |fName |lName ...
Cómo cambiar el nombre del archivo de salida del marco de datos de chispa en AWS en spark SCALA
Estoy guardando mi salida de marco de datos de chispa como archivo csv en scala con particiones. Así es como hago eso enzepelín. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ ...
Python / pyspark data frame reorganizar columnas
Tengo un marco de datos en python / pyspark con columnasid time city zip y así...... Ahora agregué una nueva columnaname a este marco de datos. Ahora tengo que organizar las columnas de tal manera que elname la columna viene despuésid He hecho ...
PySpark, superior para DataFrame
Lo que quiero hacer es un marco de datos, tomar los n elementos principales de acuerdo con alguna columna especificada. La parte superior (self, num) en RDD API es exactamente lo que quiero. Me pregunto si hay una API equivalente en el mundo ...
Cómo empujar un marco de datos Spark a Elastic Search (Pyspark)
Principiante ES Pregunta aquí ¿Cuál es el flujo de trabajo o los pasos para llevar un Spark Dataframe a Elastic Search? De la investigación, creo que necesito usar elspark.newAPIHadoopFile ...
¿Cómo escribir un objeto de conjunto de datos para sobresalir en spark java?
Estoy leyendo un archivo de Excel usandocom.crealytics.spark.excelpaquete. A continuación se muestra el código para leer un archivo de Excel en spark java. Dataset<Row> SourcePropertSet = sqlContext.read() .format("com.crealytics.spark.excel") ...