Resultados de la búsqueda a petición "spark-dataframe"

2 la respuesta

Grupo Pyspark Dataframe mediante filtrado

Tengo un marco de datos como a continuación cust_id req req_met ------- --- ------- 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1Tengo que mirar a los clientes, ver cuántos requisitos tienen y ver si han cumplido al menos ...

1 la respuesta

Problemas con la función redonda de Pyspark

Tengo algunos problemas para que funcione la función de redondeo en pyspar, k: tengo el siguiente bloque de código, donde estoy tratando de redondear elnew_bid columna a 2 decimales y cambie el nombre de la columna comobid luego - ...

1 la respuesta

Spark distancia coseno entre filas usando Dataframe

Tengo que calcular una distancia cosenoidal entre cada fila, pero no tengo idea de cómo hacerlo usando Spark API Dataframes con elegancia. La idea es calcular similitudes para cada fila (elementos) y tomar las 10 similitudes ...

1 la respuesta

Cómo comparar dos marcos de datos e imprimir columnas que son diferentes en escala

Tenemos dos marcos de datos aquí: el marco de datos esperado: +------+---------+--------+----------+-------+--------+ |emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site| +------+---------+--------+----------+-------+--------+ | 3| ...

1 la respuesta

Apache Spark Dataframe Groupby agg () para varias columnas

tengo unDataFrame con 3 columnas, es decirId, First Name, Last Name quiero aplicarGroupBy sobre la base deId y quiere coleccionarFirst Name, Last Name columna como lista. Ejemplo: tengo un DF como este +---+-------+--------+ |id |fName |lName ...

2 la respuesta

Cómo cambiar el nombre del archivo de salida del marco de datos de chispa en AWS en spark SCALA

Estoy guardando mi salida de marco de datos de chispa como archivo csv en scala con particiones. Así es como hago eso enzepelín. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ ...

1 la respuesta

Python / pyspark data frame reorganizar columnas

Tengo un marco de datos en python / pyspark con columnasid time city zip y así...... Ahora agregué una nueva columnaname a este marco de datos. Ahora tengo que organizar las columnas de tal manera que elname la columna viene despuésid He hecho ...

3 la respuesta

PySpark, superior para DataFrame

Lo que quiero hacer es un marco de datos, tomar los n elementos principales de acuerdo con alguna columna especificada. La parte superior (self, num) en RDD API es exactamente lo que quiero. Me pregunto si hay una API equivalente en el mundo ...

2 la respuesta

Cómo empujar un marco de datos Spark a Elastic Search (Pyspark)

Principiante ES Pregunta aquí ¿Cuál es el flujo de trabajo o los pasos para llevar un Spark Dataframe a Elastic Search? De la investigación, creo que necesito usar elspark.newAPIHadoopFile ...

2 la respuesta

¿Cómo escribir un objeto de conjunto de datos para sobresalir en spark java?

Estoy leyendo un archivo de Excel usandocom.crealytics.spark.excelpaquete. A continuación se muestra el código para leer un archivo de Excel en spark java. Dataset<Row> SourcePropertSet = sqlContext.read() .format("com.crealytics.spark.excel") ...