Resultados da pesquisa a pedido "bigdata"

2 a resposta

Estou tentando obter a lista de todos os autores que tiveram mais de 3 trabalhos - DBpedia Sparql

Estou tentando obter uma lista de todos os autores que tiveram três ou mais trabalhos concluídos (na DBpedia). meu exemplo pode ser executado em:http://dbpedia.org/sparql [http://dbpedia.org/sparql] código baseselect (count(?work) as ...

1 a resposta

PySpark: inconsistência na conversão de carimbo de data e hora em número inteiro no quadro de dados

Eu tenho um dataframe com uma estrutura aproximada como a seguinte: +-------------------------+-------------------------+--------+ | timestamp | adj_timestamp | values | +-------------------------+-------------------------+--------+ | ...

2 a resposta

Particionamento do parquet Spark: grande número de arquivos

Estou tentando aproveitar o particionamento de faísca. Eu estava tentando fazer algo como data.write.partitionBy("key").parquet("/location")O problema aqui em cada partição cria um grande número de arquivos parquet, que resultam em ...

2 a resposta

É possível ler arquivos pdf / áudio / vídeo (dados não estruturados) usando o Apache Spark?

É possível ler arquivos pdf / áudio / vídeo (dados não estruturados) usando o Apache Spark? Por exemplo, tenho milhares de faturas em pdf e quero ler os dados dessas e executar algumas análises sobre isso. Quais etapas devo executar ...

1 a resposta

Arquivo de mapa de memória no MATLAB?

Decidi usar o memmapfile porque meus dados (normalmente de 30 Gb a 60 Gb) são grandes demais para caber na memória do computador. Meus arquivos de dados consistem em duas colunas de dados que correspondem às saídas de dois sensores e eu os tenho ...

2 a resposta

Importando arquivos binários do LabVIEW com informações de cabeçalho para o MATLAB?

Eu tenho arquivos .bin grandes (10GB 60GB) que desejo importar para o MATLAB; cada arquivo binário representa a saída de dois sensores, portanto, há colunas de dados demais. Aqui estáum exemplo de tamanho mais gerenciável dos meus ...

3 a resposta

agrupando um conjunto de dados muito grande em R

Eu tenho um conjunto de dados que consiste em 70.000 valores numéricos que representam distâncias que variam de 0 a 50 e quero agrupar esses números; no entanto, se eu estiver tentando a abordagem clássica de agrupamento, teria que estabelecer ...

4 a resposta

Carregar uma pequena amostra aleatória de um arquivo csv grande no quadro de dados R

O arquivo csv a ser processado não cabe na memória. Como se pode ler ~ 20K linhas aleatórias para fazer estatísticas básicas no quadro de dados selecionado?

3 a resposta

Como visualizar o arquivo Apache Parquet no Windows?

Não consegui encontrar explicações simples em inglês sobre os arquivos do Apache Parquet. Tal como: O que eles são?Preciso do Hadoop ou HDFS para visualizar / criar / armazenar?Como posso criar arquivos parquet?Como posso visualizar arquivos ...

4 a resposta

Tabela do Hive retornando conjunto de resultados vazio em todas as consultas

Criei uma tabela do Hive, que carrega dados de um arquivo de texto. Mas seu resultado vazio retornado é definido em todas as consultas. Eu tentei o seguinte comando: CREATE TABLE table2( id1 INT, id2 INT, id3 INT, id4 STRING, id5 INT, id6 ...