Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Preciso comparar dois quadros de dados para validação de tipo e enviar um valor diferente de zero como saída

Estou comparando dois quadros de dados (basicamente, esses são esquemas de duas fontes de dados diferentes, uma da seção e outra da SAS9.2) Preciso validar a estrutura para ambas as fontes de dados, então converti o esquema em dois quadros de ...

1 a resposta

Como extrair um elemento de uma matriz no pyspark

Eu tenho um quadro de dados com o seguinte tipo col1|col2|col3|col4 xxxx|yyyy|zzzz|[1111],[2222]Quero que minha saída esteja seguindo o tipo col1|col2|col3|col4|col5 xxxx|yyyy|zzzz|1111|2222Meu col4 é uma matriz e quero convertê-lo em uma ...

1 a resposta

Spark - Janela com recursão? - Propagar valores condicionalmente pelas linhas

Eu tenho o seguinte quadro de dados mostrando a receita das compras. +-------+--------+-------+ |user_id|visit_id|revenue| +-------+--------+-------+ | 1| 1| 0| | 1| 2| 0| | 1| 3| 0| | 1| 4| 100| | 1| 5| 0| | 1| 6| 0| | 1| 7| 200| | 1| 8| 0| | ...

2 a resposta

função pyspark approxQuantile

Eu tenho dataframe com essas colunasid, price, timestamp. Gostaria de encontrar o valor mediano agrupado porid. Estou usando esse código para encontrá-lo, mas está me dando esse erro. from pyspark.sql import DataFrameStatFunctions as statFunc ...

0 a resposta

envio de vários aplicativos spark no modo autônomo

Eu tenho 4 aplicação faísca (para encontrar wordcount de arquivo de texto) que escrito em 4 idiomas diferentes (R, python, java, scala) ./wordcount.R ./wordcount.py ./wordcount.java ./wordcount.scalao spark funciona no modo autônomo ... 1.4 nós ...

1 a resposta

número máximo de colunas que podemos ter no dataframe spark scala

Gosto de saber o número máximo de colunas que posso ter no quadro de dados. Existe alguma limitação na manutenção do número de colunas nos quadros de dados. Obrigado.

1 a resposta

Como eliminar duplicatas usando condições [duplicado]

Esta pergunta já tem uma resposta aqui: Como selecionar a primeira linha de cada grupo? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 respostasEu tenho o seguinte DataFramedf: Como posso excluir duplicatas, mantendo o valor ...

1 a resposta

Junte dois gasodutos Spark mllib juntos

Eu tenho dois separadosDataFrames cada um com várias etapas de processamento diferentes, que eu usomllib transformadores em um pipeline para lidar. Agora, quero unir esses dois pipelines, mantendo os recursos (colunas) de cadaDataFrame. O ...

1 a resposta

Como definir parâmetros para um PySpark Transformer personalizado, uma vez que é um estágio em um pipeline de ML instalado?

Eu escrevi um pipeline personalizado de MLEstimator eTransformer para o meu próprio algoritmo Python, seguindo o padrão mostradoaqui [https://stackoverflow.com/a/37279526/1843329]. No entanto, nesse exemplo, todos os parâmetros necessários ...

2 a resposta

Por que esse código Spark cria NullPointerException?

Estou com um problema ao executar um aplicativo Spark. Código fonte: // Read table From HDFS val productInformation = spark.table("temp.temp_table1") val dict = spark.table("temp.temp_table2") // Custom UDF val countPositiveSimilarity = ...