Resultados da pesquisa a pedido "hadoop"
Como anexar dados a um arquivo parquet existente
Estou usando o código a seguir para criar o ParquetWriter e gravar registros nele. ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE); final GenericRecord record ...
Hadoop streaming - remova a guia à direita da saída do redutor
Eu tenho um trabalho de streaming hadoop cuja saída não contém pares de chave / valor. Você pode pensar nisso como pares de valor único ou pares somente de c...
Como faço para saída dos resultados de uma consulta HiveQL para CSV?
Gostaríamos de colocar os resultados de uma consulta Hive em um arquivo CSV. Eu pensei que o comando deveria ser assim:
O diretório raiz do zero: / tmp / hive no HDFS deve ser gravável. As permissões atuais são: -wx ------
Alterei a permissão usando o comando hdfs. Ainda está mostrando o mesmo erro. O diretório raiz do zero: / tmp / hive no HDFS deve ser gravável. As permissões atuais são: -wx ------ Programa Java que estou executando. import ...
qual é a diferença entre os comandos shell “hadoop fs” e os comandos shell “hdfs dfs”?
Eles deveriam ser iguais?mas, porque o "
Como implementar o tipo no hadoop?
Meu problema é classificar valores em um arquivo. chaves e valores são números inteiros e precisam manter as chaves dos valores classificados.
HiveQL e classificação ()
Não consigo entender a classificação do HiveQL (). Eu encontrei algumas implementações de rank UDF's na WWW, comoBom exemplo de Edward. Eu posso carregar...
Como definir um redutor para emitir <Text, IntWritable> e um mapeador para receber <Text, IntWritable>?
Estou desenvolvendo algum código emhadoopcommapreduzirque usadois mapeadores e dois redutores.Foi-me dito para usarSequenceFileInputFormate SequenceFileOutputFormatpara que a saída do primeiro redutor e a entrada do segundo mapeador funcionem ...
Spark lendo o arquivo WARC com InputFormat customizado
Preciso processar um arquivo .warc através do Spark, mas não consigo encontrar uma maneira direta de fazer isso. Eu preferiria usar Python e não ler o arquivo inteiro em um RDD atravéswholeTextFiles() (porque o arquivo inteiro seria processado em ...