Resultados da pesquisa a pedido "bigdata"

2 a resposta

Como passar a variável conf Hive no hive udf?

Eu quero passar a variável conf da seção para a UDF. abaixo está um trecho de código. hive -f ../hive/testHive.sql -hivevar testArg=${testArg}Abaixo está a chamada da colmeia UDF. select setUserDefinedValueForColumn(columnName,'${testArg}') ...

2 a resposta

Falha ao gravar dados de deslocamento no zookeeper no kafka-storm

Eu estava configurando um cluster de tempestade para calcular tendências em tempo real e outras estatísticas, no entanto, tenho alguns problemas ao introduzir o recurso de "recuperação" neste projeto, permitindo o deslocamento que foi lido pela ...

2 a resposta

Exportar grande quantidade de dados do Cassandra para CSV

Estou usando o Cassandra 2.0.9 para armazenar grandes quantidades de dados, digamos 100Gb, em uma família de colunas. Gostaria de exportar esses dados para CSV de maneira rápida. Eu tentei: sstable2json- produz arquivos json muito grandes que ...

4 a resposta

Django + Postgres + Séries cronológicas grandes

Estou estudando um projeto com dados de séries temporais grandes e praticamente não compactáveis e me perguntando se o Django + Postgres com SQL bruto é a decisão certa. Eu tenho dados de séries temporais que são ~ 2K objetos / hora, a cada ...

2 a resposta

Subtrair todos os pares de valores de duas matrizes

Eu tenho dois vetoresv1 ev2. Eu gostaria de subtrair cada valor dev2 de cada valor dev1 e armazene os resultados em outro vetor. Também gostaria de trabalhar com vetores muito grandes (por exemplo, tamanho 1e6), então acho que devo usar numpy ...

1 a resposta

Carregar matriz JSON no Pig

Eu tenho um arquivo json com o seguinte formato [ { "id": 2, "createdBy": 0, "status": 0, "utcTime": "Oct 14, 2014 4:49:47 PM", "placeName": "21/F, Cunningham Main Rd, Sampangi Rama NagarBengaluruKarnatakaIndia", "longitude": 77.5983817, ...

3 a resposta

Como funciona a função pyspark mapPartitions?

Então, eu estou tentando aprender o Spark usando Python (Pyspark). Eu quero saber como a funçãomapPartitions trabalhos. Isso é o que é necessário e o que é gerado. Não consegui encontrar nenhum exemplo adequado da internet. Digamos, eu tenho um ...

1 a resposta

Calcular matriz de distância euclidiana usando um objeto big.matrix

Eu tenho um objeto de classebig.matrix noR com dimensão778844 x 2. Os valores são todos os números inteiros (quilômetros). Meu objetivo é calcular a matriz de distância euclidiana usando o métodobig.matrix e ter como resultado um objeto ...

2 a resposta

Qual função no spark é usada para combinar dois RDDs por teclas

Digamos que eu tenho os dois seguintes RDDs, com os seguintes valores de par de chaves. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]e rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]Agora, quero juntá-los ...

2 a resposta

R, problema com um cluster hierárquico após uma análise de correspondência múltipla

Quero agrupar um conjunto de dados (600000 observações) e, para cada cluster, quero obter os componentes principais. Meus vetores são compostos por um email e por 30 variáveis qualitativas. Cada variável quantitativa possui 4 classes: 0,1,2 e ...