Resultados da pesquisa a pedido "spark-dataframe"
O quadro de dados Python / pyspark reorganiza as colunas
Eu tenho um quadro de dados em python / pyspark com colunasid time city zip e assim por diante...... Agora eu adicionei uma nova colunaname para esse quadro de dados. Agora eu tenho que organizar as colunas de tal maneira que oname coluna ...
Distância de cosseno da faísca entre linhas usando Dataframe
Preciso calcular uma distância de cosseno entre cada linha, mas não faço ideia de como fazê-lo usando os quadros de dados da API do Spark de maneira elegante. A idéia é calcular semelhanças para cada linha (itens) e obter as 10 ...
Pyspark - ValueError: não foi possível converter a seqüência de caracteres em float / literal inválido para float ()
Estou tentando usar dados de um quadro de dados spark como entrada para o meu modelo k-means. No entanto, continuo recebendo erros. (Verifique a seção após o código) Meu spark dataframe e se parece com isso (e tem cerca de 1 milhão de ...
Como renomear o arquivo de saída do quadro de dados spark na AWS no spark SCALA
Estou salvando minha saída do quadro de dados spark como arquivo csv no scala com partições. É assim que eu faço issozepelim. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ ...
Como enviar um Dataframe Spark para a pesquisa elástica (Pyspark)
Iniciante ES Pergunta aqui Qual é o fluxo de trabalho ou as etapas para enviar um Spark Dataframe para a Elastic Search? A partir de pesquisas, acredito que preciso usar ospark.newAPIHadoopFile ...
Contar o número de linhas duplicadas no SPARKSQL
Eu tenho requisito onde eu preciso contar o número de linhas duplicadas nas tabelas SparkSQL for Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row ...
Pyspark: matriz de elenco com estrutura aninhada para cadeia
Eu tenho o dataframe pyspark com uma coluna chamadaFiltros: "matriz>" Eu quero salvar meu dataframe no arquivo csv, para isso eu preciso converter a matriz para o tipo de seqüência de caracteres. Eu tentei lançá-lo:DF.Filters.tostring() ...
Mapeando json para a classe case com Spark (espaços no nome do campo)
Eu estou tentando ler um arquivo json com a faíscaDataset API, o problema é que esse json contém espaços em alguns dos nomes de campo. Esta seria uma linha json {"Field Name" : "value"}Minha classe de caso precisa ser assim case class ...
PySpark: Como preencher valores no dataframe para colunas específicas?
Eu tenho o seguinte exemplo DataFrame: a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 |E eu quero substituir valores nulos apenas nas 2 primeiras colunas - coluna "a" e "b": a | b | c | 1 | 2 | 4 | 0 | 0 | null| 0 | 3 | 4 |Aqui está o ...
Problemas com a função Rodada Pyspark
Tendo problemas para obter a função round em pyspar, k para funcionar - eu tenho o bloco de código abaixo, onde estou tentando arredondar onew_bid coluna com 2 casas decimais e renomeie a coluna comobid depois - ...