Resultados da pesquisa a pedido "apache-spark"

2 a resposta

O que o Spark recupera os dados de um nó com falha?

Suponha que tenhamos um RDD, que está sendo usado várias vezes. Portanto, para salvar os cálculos repetidamente, persistimos esse RDD usando o método rdd.persist (). Portanto, quando persistimos esse RDD, os nós que computam o RDD armazenam ...

1 a resposta

Semelhança de string com a condição OR no MinHash Spark ML

Eu tenho dois conjuntos de dados, o primeiro é um grande conjunto de dados de referência e do segundo conjunto de dados encontrará a melhor correspondência do primeiro conjunto de dados através do algoritmo MinHash. val dataset1 = ...

2 a resposta

Como adicionar um novo campo à coluna struct?

Eu tenho um dataframe com algo parecido com istodf.printSchema: root |-- ts: timestamp (nullable = true) |-- geoip: struct (nullable = true) | |-- city: string (nullable = true) | |-- continent: string (nullable = true) | |-- location: struct ...

1 a resposta

O Pipeline Spark ML com RandomForest leva muito tempo no conjunto de dados de 20 MB

Estou usando o Spark ML para executar algumas experiências de ML e em um pequeno conjunto de dados de 20 MB (Conjunto de dados de poker [http://archive.ics.uci.edu/ml/machine-learning-databases/poker/poker-hand-testing.data] ) e uma Floresta ...

2 a resposta

Como lidar com linhas de várias linhas no spark?

Estou tendo um quadro de dados que possui algumas observações de várias linhas: +--------------------+----------------+ | col1| col2| +--------------------+----------------+ |something1 |somethingelse1 | |something2 |somethingelse2 | |something3 ...

1 a resposta

Spark UDAF com ArrayType como bufferSchema problemas de desempenho

Estou trabalhando em um UDAF que retorna uma matriz de elementos. A entrada para cada atualização é uma tupla de índice e valor. O que o UDAF faz é somar todos os valores no mesmo índice. Exemplo: Para entrada (índice, valor): (2,1), (3,1), ...

2 a resposta

Como evitar arquivos vazios ao escrever arquivos em parquet?

Estou lendo na fila Kafka usando o fluxo de estrutura do Spark. Depois de ler o Kafka, estou aplicando o filtro no dataframe. Esse quadro de dados filtrados que estou dizendo em um arquivo de parquet., Isso está gerando muitos arquivos de parquet ...

1 a resposta

Aplicar uma transformação a várias colunas pyspark dataframe

Suponha que eu tenha o seguinte spark-dataframe: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Que pode ser criado usando o seguinte código: sample_df = ...

1 a resposta

Spark Structured Streaming - Processando cada linha

Estou usando o streaming estruturado com o Spark 2.1.1. Preciso aplicar alguma lógica de negócios às mensagens recebidas (da fonte Kafka). essencialmente, preciso captar a mensagem, obter alguns valores-chave, procurá-los no HBase e executar ...

1 a resposta

Transposição de Dataframe com pyspark no Apache Spark

Eu tenho um quadro de dadosdf que possuem a seguinte estrutura: +-----+-----+-----+-------+ | s |col_1|col_2|col_...| +-----+-------------------+ | f1 | 0.0| 0.6| ... | | f2 | 0.6| 0.7| ... | | f3 | 0.5| 0.9| ... | | ...| ...| ...| ... |E eu ...