Resultados da pesquisa a pedido "spark-dataframe"

1 a resposta

O quadro de dados Python / pyspark reorganiza as colunas

Eu tenho um quadro de dados em python / pyspark com colunasid time city zip e assim por diante...... Agora eu adicionei uma nova colunaname para esse quadro de dados. Agora eu tenho que organizar as colunas de tal maneira que oname coluna ...

1 a resposta

Distância de cosseno da faísca entre linhas usando Dataframe

Preciso calcular uma distância de cosseno entre cada linha, mas não faço ideia de como fazê-lo usando os quadros de dados da API do Spark de maneira elegante. A idéia é calcular semelhanças para cada linha (itens) e obter as 10 ...

1 a resposta

Pyspark - ValueError: não foi possível converter a seqüência de caracteres em float / literal inválido para float ()

Estou tentando usar dados de um quadro de dados spark como entrada para o meu modelo k-means. No entanto, continuo recebendo erros. (Verifique a seção após o código) Meu spark dataframe e se parece com isso (e tem cerca de 1 milhão de ...

2 a resposta

Como renomear o arquivo de saída do quadro de dados spark na AWS no spark SCALA

Estou salvando minha saída do quadro de dados spark como arquivo csv no scala com partições. É assim que eu faço issozepelim. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ ...

2 a resposta

Como enviar um Dataframe Spark para a pesquisa elástica (Pyspark)

Iniciante ES Pergunta aqui Qual é o fluxo de trabalho ou as etapas para enviar um Spark Dataframe para a Elastic Search? A partir de pesquisas, acredito que preciso usar ospark.newAPIHadoopFile ...

1 a resposta

Contar o número de linhas duplicadas no SPARKSQL

Eu tenho requisito onde eu preciso contar o número de linhas duplicadas nas tabelas SparkSQL for Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row ...

2 a resposta

Pyspark: matriz de elenco com estrutura aninhada para cadeia

Eu tenho o dataframe pyspark com uma coluna chamadaFiltros: "matriz>" Eu quero salvar meu dataframe no arquivo csv, para isso eu preciso converter a matriz para o tipo de seqüência de caracteres. Eu tentei lançá-lo:DF.Filters.tostring() ...

2 a resposta

Mapeando json para a classe case com Spark (espaços no nome do campo)

Eu estou tentando ler um arquivo json com a faíscaDataset API, o problema é que esse json contém espaços em alguns dos nomes de campo. Esta seria uma linha json {"Field Name" : "value"}Minha classe de caso precisa ser assim case class ...

2 a resposta

PySpark: Como preencher valores no dataframe para colunas específicas?

Eu tenho o seguinte exemplo DataFrame: a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 |E eu quero substituir valores nulos apenas nas 2 primeiras colunas - coluna "a" e "b": a | b | c | 1 | 2 | 4 | 0 | 0 | null| 0 | 3 | 4 |Aqui está o ...

1 a resposta

Problemas com a função Rodada Pyspark

Tendo problemas para obter a função round em pyspar, k para funcionar - eu tenho o bloco de código abaixo, onde estou tentando arredondar onew_bid coluna com 2 casas decimais e renomeie a coluna comobid depois - ...