Resultados da pesquisa a pedido "bigdata"

4 a resposta

Como carregar uma tabela grande no tableau para visualização de dados?

Consigo conectar o tableau ao meu banco de dados, mas o tamanho da tabela é realmente grande aqui. Sempre que tento carregar a tabela no tableau, ela está travando e não consigo encontrar nenhuma solução alternativa. O tamanho da tabela varia de ...

1 a resposta

PCA incremental em big data

Eu apenas tentei usar o IncrementalPCA do sklearn.decomposition, mas ele lançou um MemoryError assim como o PCA e o RandomizedPCA antes. Meu problema é que a matriz que estou tentando carregar é muito grande para caber na RAM. No momento, ele é ...

1 a resposta

É uma boa prática sincronizar consultas de banco de dados ou chamadas repousantes em tarefas de fluxos Kafka?

Eu uso fluxos Kafka para processar dados em tempo real, nas tarefas de fluxos Kafka, preciso acessar o MySQL para consultar dados e chamar outro serviço tranqüilo. Todas as operações são síncronas. Receio que a chamada de sincronização reduza a ...

1 a resposta

Fila de tarefas para a ação do Hive no oozie

Eu tenho um fluxo de trabalho oozie. Estou enviando todas as ações da seção com <name>mapred.job.queue.name</name> <value>${queueName}</value>Porém, para poucas ações de seção, o trabalho iniciado não está na fila especificada; é chamado na fila ...

1 a resposta

Por que Kafka tão rápido [fechado]

Se eu tiver o mesmo hardware, use o Kafka ou nossa solução atual (ServiceMix / Camel). Existe alguma diferença? Kafka pode manipular dados "maiores" que ele? Por quê? Há um artigo para falar sobre quão rápido poderia ser? Mas ainda não ...

2 a resposta

O Spark não resistiria ao próprio RDD quando perceber que não será mais usado?

Podemos manter um RDD na memória e / ou disco quando queremos usá-lo mais de uma vez. No entanto, precisamos remover o anti-persistência posteriormente, ou o Spark faz algum tipo de coleta de lixo e remove o RDD quando não é mais necessário? ...

1 a resposta

Estenda a máscara numpy por n células à direita para cada valor incorreto, com eficiência

Digamos que eu tenha uma matriz de comprimento 30 com 4 valores ruins. Quero criar uma máscara para esses valores ruins, mas como usarei funções de janela de rolagem, também gostaria que um número fixo de índices subsequentes após cada valor ruim ...

1 a resposta

Adivinhador de tipo de dados Spark UDAF

Queria levar algo assim https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java]e crie um Hive UDAF para criar uma função agregada que retorna uma ...

5 a resposta

PySpark DataFrames - maneira de enumerar sem converter para Pandas?

Eu tenho um grandepyspark.sql.dataframe.DataFramechamado df. Eu preciso de alguma maneira de enumerar registros, portanto, ser capaz de acessar registros com determinado índice. (ou selecione um grupo de registros com intervalo de índices) Nos ...

1 a resposta

jq --streamstream filter em vários valores da mesma chave

Estou processando um JSON muito grande em que preciso filtrar os objetos JSON internos usando o valor de uma chave. Meu JSON tem a seguinte ...