Resultados da pesquisa a pedido "pyspark"
Coluna GroupBy e linhas de filtro com valor máximo no Pyspark
Estou quase certo de que isso já foi solicitado antes, masuma pesquisa através do ...
Amostragem estratificada com pyspark
Eu tenho uma faíscaDataFrame que tem uma coluna que temmuitos zerose muito poucos (apenas 0,01%). Gostaria de fazer uma subamostra aleatória, mas estratificada - para que ela mantenha a proporção de 1s para 0s nessa coluna. É possível fazer no ...
Como usar variáveis de string no VectorAssembler no Pyspark
Eu quero executar o algoritmo Random Forests no Pyspark. É mencionado no Documentação do Pyspark [http://spark.apache.org/docs/latest/ml-features.html#vectorassembler]esse VectorAssembler aceita apenas tipos de dados numéricos ou booleanos. ...
Como adicionar várias colunas usando UDF?
Pergunta, questão Desejo adicionar os valores de retorno de um UDF a um quadro de dados existente em colunas separadas. Como faço para conseguir isso de uma maneira engenhosa? Aqui está um exemplo do que tenho até agora. from ...
Como definir a precisão da exibição no PySpark Dataframe show
Como você define a precisão de exibição no PySpark ao chamar.show()? Considere o seguinte exemplo: from math import sqrt import pyspark.sql.functions as f data = zip( map(lambda x: sqrt(x), range(100, 105)), map(lambda x: sqrt(x), range(200, ...
Como criar bons exemplos reproduzíveis do Apache Spark
Passei bastante tempo lendo algumas perguntas com opyspark [/questions/tagged/pyspark]espark-dataframe [/questions/tagged/spark-dataframe] tags e, muitas vezes, acho que os pôsteres não fornecem informações suficientes para entender realmente a ...
O Pipeline Spark ML com RandomForest leva muito tempo no conjunto de dados de 20 MB
Estou usando o Spark ML para executar algumas experiências de ML e em um pequeno conjunto de dados de 20 MB (Conjunto de dados de poker [http://archive.ics.uci.edu/ml/machine-learning-databases/poker/poker-hand-testing.data] ) e uma Floresta ...
Aplicar uma transformação a várias colunas pyspark dataframe
Suponha que eu tenha o seguinte spark-dataframe: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Que pode ser criado usando o seguinte código: sample_df = ...
Como evitar arquivos vazios ao escrever arquivos em parquet?
Estou lendo na fila Kafka usando o fluxo de estrutura do Spark. Depois de ler o Kafka, estou aplicando o filtro no dataframe. Esse quadro de dados filtrados que estou dizendo em um arquivo de parquet., Isso está gerando muitos arquivos de parquet ...
Transposição de Dataframe com pyspark no Apache Spark
Eu tenho um quadro de dadosdf que possuem a seguinte estrutura: +-----+-----+-----+-------+ | s |col_1|col_2|col_...| +-----+-------------------+ | f1 | 0.0| 0.6| ... | | f2 | 0.6| 0.7| ... | | f3 | 0.5| 0.9| ... | | ...| ...| ...| ... |E eu ...