Resultados da pesquisa a pedido "apache-spark"
Como converter DataFrame com colunas Vector no RDD
Eu tenho um DataFrame (chamadodf1 no Pyspark, no qual uma das colunas é do tipoDenseVector. Este é o esquema do quadro de dados. DataFrame[prediction: double, probability: vector, label: double]Eu tento convertê-lo em um RDD usandodf1.rdd ...
Adicione uma nova coluna a um Dataframe. Nova coluna, eu quero que seja um gerador UUID
Eu quero adicionar uma nova coluna a um Dataframe, um gerador UUID. O valor UUID será parecido com21534cf7-cff9-482a-a3a8-9e7244240da7 Minha pesquisa: Eu tentei comwithColumn método na faísca. val DF2 = DF1.withColumn("newcolname", ...
Como usar o recurso de envio programático de faísca
Há um recurso um pouco recente (primavera de 2015) aparentemente destinado a permitir o envio de um trabalho de faísca programaticamente. Aqui está o ...
Como permitir que o Spark analise um campo String com escape JSON como um objeto JSON para inferir a estrutura apropriada nos DataFrames?
Eu tenho como entrada um conjunto de arquivos formatados como um único objeto JSON por linha. O problema, no entanto, é que um campo nesses objetos JSON é uma String com escape JSON. Exemplo { "id":1, "name":"some name", ...
Conversão entre spark.SQL DataFrame e pandas DataFrame [duplicado]
Esta pergunta já tem uma resposta aqui: Requisitos para converter o dataframe Spark em Pandas / R dataframe [/questions/30983197/requirements-for-converting-spark-dataframe-to-pandas-r-dataframe] 1 resposta Isso é possível para converter de ...
Salvar o conteúdo do Spark DataFrame como um único arquivo CSV [duplicado]
Esta pergunta já tem uma resposta aqui: Escreva um arquivo CSV único usando spark-csv [/questions/31674530/write-single-csv-file-using-spark-csv] 8 respostas Dizem que tenho um Spark DataFrame que desejo salvar como arquivo CSV. Depois ...
O Spark suporta subconsultas? [duplicado
Esta pergunta já tem uma resposta aqui: O SparkSQL suporta subconsulta? [/questions/33933118/does-sparksql-support-subquery] 2 respostasQuando estou executando esta consulta, recebi esse tipo de erro select * from raw_2 where ip NOT IN (select ...
ntendendo a saída do terminal Spark durante os estágios [duplicado]
Esta pergunta já tem uma resposta aqui: O que significam os números na barra de progresso no shell de faísca? [/questions/30245180/what-do-the-numbers-on-the-progress-bar-mean-in-spark-shell] 2 respostas Sou novo no Spark e estou tentando ...
Como ativar a junção cartesiana no Spark 2.0? [duplicado
Esta pergunta já tem uma resposta aqui: spark.sql.crossJoin.enabled para Spark 2.x [/questions/38999140/spark-sql-crossjoin-enabled-for-spark-2-x] 3 respostas Preciso cruzar a junção de 2 dataframe no Spark 2.0 Estou encontrando o ...
tempo de execução do trabalho no @park aumenta exponencialmente com um conjunto de dados muito amplo e o número de colunas [duplicado]
Esta pergunta é uma duplicata exata de: mportação de arquivo de largura fixa do @Spark Grande número de colunas causando alto tempo de ...