Resultados da pesquisa a pedido "apache-spark"

4 a resposta

Gravar / armazenar dataframe no arquivo de texto

Estou tentando escreverdataframe paratext Arquivo. Se um arquivo contiver uma única coluna, eu posso escrever no arquivo de texto. Se o arquivo contiver várias colunas, então eu enfrento algum erro A fonte de dados de texto suporta apenas uma ...

1 a resposta

Como transformar o quadro de dados em vetor de recurso de rótulo?

Estou executando um modl de regressão logística no scala e tenho um quadro de dados como abaixo: df +-----------+------------+ |x |y | +-----------+------------+ | 0| 0| | 0| 33| | 0| 58| | 0| 96| | 0| 1| | 1| 21| | 0| 10| | 0| 65| | 1| 7| | 1| ...

2 a resposta

criar um dataframe spark a partir de um arquivo json aninhado no scala [duplicado]

Esta pergunta já tem uma resposta aqui: Como acessar subentidades no arquivo JSON? [/questions/44814926/how-to-access-sub-entities-in-json-file] 1 respostaEu tenho um arquivo json que se parece com isso { "group" : {}, "lang" : [ [ 1, "scala", ...

1 a resposta

O Spark divide um valor da coluna em várias linhas

Meu problema é que tenho uma tabela como esta: ------------------------ A B C ------------------------ a1 b2 c1|c2|c3|c4c1 | c2 | c3 | c4 é um valor separado por |. Meu resultado final deve ficar assim: --------- A B C --------- a1 b1 c1 a1 b1 ...

1 a resposta

DataFrame do Pandas para o Spark, manipulando conversões de NaN para nulo real?

Eu quero converter o quadro de dados de pandas em faísca e estou usandospark_context.createDataFrame() método para criar o quadro de dados. Também estou especificando o esquema nocreateDataFrame() método. O que eu quero saber é como lidar com ...

1 a resposta

Problemas com a função Rodada Pyspark

Tendo problemas para obter a função round em pyspar, k para funcionar - eu tenho o bloco de código abaixo, onde estou tentando arredondar onew_bid coluna com 2 casas decimais e renomeie a coluna comobid depois - ...

4 a resposta

Spark Dataframe: Como adicionar um índice Coluna: Aka Distributed Data Index

Eu li dados de um arquivo csv, mas não tenho índice. Quero adicionar uma coluna de 1 ao número da linha. O que devo fazer, obrigado (scala)

2 a resposta

Spark: leia o arquivo apenas se o caminho existir

Estou tentando ler os arquivos presentes emSequence de caminhos em scala. Abaixo está o código de exemplo (pseudo): val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*)Agora, na sequência acima, existem alguns ...

1 a resposta

Como codificar valores de seqüência de caracteres em valores numéricos no Spark DataFrame

Eu tenho um DataFrame com duas colunas: df = Col1 Col2 aaa bbb ccc aaaEu quero codificar valores String em valores numéricos. Eu consegui fazer isso desta maneira: import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer} val indexer1 ...

1 a resposta

Bibliotecas necessárias para usar o Spark do Python (PySpark)

Estou usando o PySpark do Django e me conecto a um nó mestre do spark usando o SparkSession para executar um trabalho no cluster. Minha pergunta é: preciso de uma instalação completa do spark na minha máquina local? Toda a documentação me ...