como acessar e manipular os dados do arquivo pdf no Hadoop?

Question

Feb 15, 2012, 09:36 AM

hadoop hadoop-streaming hadoop-plugins hadoopy

como acessar e manipular os dados do arquivo pdf no Hadoop?

Eu quero ler o arquivo PDF usando o hadoop, como é possível? Eu sei apenas que o hadoop pode processar apenas arquivos txt, então existe uma maneira de analisar os arquivos PDF em tx

Dê-me uma sugestão.

leaveComments

questionAnswers(4)

yourAnswerToTheQuestion

Perguntas populares

0 a resposta

Matriz de acesso além do limite em C e C ++

0 a resposta

Como posso usar dois projetos SVN e as ramificações git-svn correspondentes com um único diretório de trabalh

0 a resposta

can "addAction" para IntentFilter no android

0 a resposta

Java: mapeamento Hibernate @OneToOne

0 a resposta

Como posso usar a opção "--bare" no Rails 3.1 para CoffeeScrip