Resultados da pesquisa a pedido "bigdata"
Por que o OneHotEncoder do Spark descarta a última categoria por padrão?
Gostaria de entender o racional por trás do OneHotEncoder do Spark descartando a última categoria por padrão. Por exemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...
Elasticsearch Mapping - Renomear campo existente
Existe alguma maneira de renomear um elemento em um mapeamento elasticsearch existente sem precisar adicionar um novo elemento? Em caso afirmativo, qual é a melhor maneira de fazê-lo para evitar a quebra do mapeamento existente? por exemplo. ...
Como reiniciar uma tarefa com falha no Airflow
Estou usando umLocalExecutore meu dag tem3 tarefasonde a tarefa (C) depende da tarefa (A). Tarefa (B) e tarefa (A) podem ser executadas em paralelo, como abaixo A -> C B Portanto, a tarefa (A) falhoue mastarefa (B) correu bem. A tarefa (C) ...
Como lidar com erros e não confirmar quando usar o DSL do Kafka Streams
Para o Kafka Streams, se usarmos a API do processador de nível inferior, podemos controlar a confirmação ou não. Portanto, se ocorrerem problemas em nosso código, e não queremos confirmar esta mensagem. Nesse caso, o Kafka reenviará essa mensagem ...
por que dois vetores não é similaridade, mas o resultado é 1?
Estou usando a fórmula Cosine Similarity para calcular a similaridade entre dois vetores. Eu tentei dois vetores diferentes como este: Vector1 (-1237373741, 27, 1, 1, 331289590, 1818540802) Vector2 (-1237373741, 49, 1, 1, 331289590, ...
Preciso comparar dois quadros de dados para validação de tipo e enviar um valor diferente de zero como saída
Estou comparando dois quadros de dados (basicamente, esses são esquemas de duas fontes de dados diferentes, uma da seção e outra da SAS9.2) Preciso validar a estrutura para ambas as fontes de dados, então converti o esquema em dois quadros de ...
Processar um arquivo GEOJson enorme com jq
Dado um arquivo GEOJson da seguinte maneira: - { "type": "FeatureCollection", "features": [ { "type": "Feature", "properties": { "FEATCODE": 15014 }, "geometry": { "type": "Polygon", "coordinates": [ ..... Quero terminar com o seguinte: - { ...
Qual é a diferença entre spark.sql.shuffle.partitions e spark.default.parallelism?
Qual é a diferença entrespark.sql.shuffle.partitions espark.default.parallelism? Eu tentei colocar os dois emSparkSQL, mas o número da tarefa do segundo estágio é sempre 200.
Como comparar dois quadros de dados e colunas de impressão diferentes no scala
Temos dois quadros de dados aqui: o quadro de dados esperado: +------+---------+--------+----------+-------+--------+ |emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site| +------+---------+--------+----------+-------+--------+ | 3| ...
Pesquise em 300 milhões de endereços com pg_trgm
Eu tenho 300 milhões de endereços no meu banco de dados PostgreSQL 9.3 e quero usar o pg_trgm para pesquisar as linhas com difusão. O objetivo final é implementar uma função de pesquisa, assim como a pesquisa no Google Map. Quando usei o pg_trgm ...