Resultados da pesquisa a pedido "bigdata"

1 a resposta

Por que o OneHotEncoder do Spark descarta a última categoria por padrão?

Gostaria de entender o racional por trás do OneHotEncoder do Spark descartando a última categoria por padrão. Por exemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...

1 a resposta

Elasticsearch Mapping - Renomear campo existente

Existe alguma maneira de renomear um elemento em um mapeamento elasticsearch existente sem precisar adicionar um novo elemento? Em caso afirmativo, qual é a melhor maneira de fazê-lo para evitar a quebra do mapeamento existente? por exemplo. ...

1 a resposta

Como reiniciar uma tarefa com falha no Airflow

Estou usando umLocalExecutore meu dag tem3 tarefasonde a tarefa (C) depende da tarefa (A). Tarefa (B) e tarefa (A) podem ser executadas em paralelo, como abaixo A -> C B Portanto, a tarefa (A) falhoue mastarefa (B) correu bem. A tarefa (C) ...

1 a resposta

Como lidar com erros e não confirmar quando usar o DSL do Kafka Streams

Para o Kafka Streams, se usarmos a API do processador de nível inferior, podemos controlar a confirmação ou não. Portanto, se ocorrerem problemas em nosso código, e não queremos confirmar esta mensagem. Nesse caso, o Kafka reenviará essa mensagem ...

1 a resposta

por que dois vetores não é similaridade, mas o resultado é 1?

Estou usando a fórmula Cosine Similarity para calcular a similaridade entre dois vetores. Eu tentei dois vetores diferentes como este: Vector1 (-1237373741, 27, 1, 1, 331289590, 1818540802) Vector2 (-1237373741, 49, 1, 1, 331289590, ...

1 a resposta

Preciso comparar dois quadros de dados para validação de tipo e enviar um valor diferente de zero como saída

Estou comparando dois quadros de dados (basicamente, esses são esquemas de duas fontes de dados diferentes, uma da seção e outra da SAS9.2) Preciso validar a estrutura para ambas as fontes de dados, então converti o esquema em dois quadros de ...

4 a resposta

Processar um arquivo GEOJson enorme com jq

Dado um arquivo GEOJson da seguinte maneira: - { "type": "FeatureCollection", "features": [ { "type": "Feature", "properties": { "FEATCODE": 15014 }, "geometry": { "type": "Polygon", "coordinates": [ ..... Quero terminar com o seguinte: - { ...

2 a resposta

Qual é a diferença entre spark.sql.shuffle.partitions e spark.default.parallelism?

Qual é a diferença entrespark.sql.shuffle.partitions espark.default.parallelism? Eu tentei colocar os dois emSparkSQL, mas o número da tarefa do segundo estágio é sempre 200.

1 a resposta

Como comparar dois quadros de dados e colunas de impressão diferentes no scala

Temos dois quadros de dados aqui: o quadro de dados esperado: +------+---------+--------+----------+-------+--------+ |emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site| +------+---------+--------+----------+-------+--------+ | 3| ...

1 a resposta

Pesquise em 300 milhões de endereços com pg_trgm

Eu tenho 300 milhões de endereços no meu banco de dados PostgreSQL 9.3 e quero usar o pg_trgm para pesquisar as linhas com difusão. O objetivo final é implementar uma função de pesquisa, assim como a pesquisa no Google Map. Quando usei o pg_trgm ...