Resultados da pesquisa a pedido "pyspark"

1 a resposta

Coluna GroupBy e linhas de filtro com valor máximo no Pyspark

Estou quase certo de que isso já foi solicitado antes, masuma pesquisa através do ...

1 a resposta

Amostragem estratificada com pyspark

Eu tenho uma faíscaDataFrame que tem uma coluna que temmuitos zerose muito poucos (apenas 0,01%). Gostaria de fazer uma subamostra aleatória, mas estratificada - para que ela mantenha a proporção de 1s para 0s nessa coluna. É possível fazer no ...

2 a resposta

Como usar variáveis de string no VectorAssembler no Pyspark

Eu quero executar o algoritmo Random Forests no Pyspark. É mencionado no Documentação do Pyspark [http://spark.apache.org/docs/latest/ml-features.html#vectorassembler]esse VectorAssembler aceita apenas tipos de dados numéricos ou booleanos. ...

3 a resposta

Como adicionar várias colunas usando UDF?

Pergunta, questão Desejo adicionar os valores de retorno de um UDF a um quadro de dados existente em colunas separadas. Como faço para conseguir isso de uma maneira engenhosa? Aqui está um exemplo do que tenho até agora. from ...

1 a resposta

Como definir a precisão da exibição no PySpark Dataframe show

Como você define a precisão de exibição no PySpark ao chamar.show()? Considere o seguinte exemplo: from math import sqrt import pyspark.sql.functions as f data = zip( map(lambda x: sqrt(x), range(100, 105)), map(lambda x: sqrt(x), range(200, ...

4 a resposta

Como criar bons exemplos reproduzíveis do Apache Spark

Passei bastante tempo lendo algumas perguntas com opyspark [/questions/tagged/pyspark]espark-dataframe [/questions/tagged/spark-dataframe] tags e, muitas vezes, acho que os pôsteres não fornecem informações suficientes para entender realmente a ...

1 a resposta

O Pipeline Spark ML com RandomForest leva muito tempo no conjunto de dados de 20 MB

Estou usando o Spark ML para executar algumas experiências de ML e em um pequeno conjunto de dados de 20 MB (Conjunto de dados de poker [http://archive.ics.uci.edu/ml/machine-learning-databases/poker/poker-hand-testing.data] ) e uma Floresta ...

1 a resposta

Aplicar uma transformação a várias colunas pyspark dataframe

Suponha que eu tenha o seguinte spark-dataframe: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Que pode ser criado usando o seguinte código: sample_df = ...

2 a resposta

Como evitar arquivos vazios ao escrever arquivos em parquet?

Estou lendo na fila Kafka usando o fluxo de estrutura do Spark. Depois de ler o Kafka, estou aplicando o filtro no dataframe. Esse quadro de dados filtrados que estou dizendo em um arquivo de parquet., Isso está gerando muitos arquivos de parquet ...

1 a resposta

Transposição de Dataframe com pyspark no Apache Spark

Eu tenho um quadro de dadosdf que possuem a seguinte estrutura: +-----+-----+-----+-------+ | s |col_1|col_2|col_...| +-----+-------------------+ | f1 | 0.0| 0.6| ... | | f2 | 0.6| 0.7| ... | | f3 | 0.5| 0.9| ... | | ...| ...| ...| ... |E eu ...