como extrair corretamente o texto de um pdf usando pdf.js

Question

Nov 16, 2016, 04:29 PM

pdf.js pdf javascript es6-promise callback

como extrair corretamente o texto de um pdf usando pdf.js

Eu sou novo no ES6 e no Promise. Estou tentando pdf.js para extrair textos de todas as páginas de um arquivo pdf em uma matriz de seqüência de caracteres. E quando a extração for concluída, quero analisar a matriz de alguma forma. Diga arquivo pdf (transmitido portypedarray corretamente) tem4 páginas e meu código é:

let str = [];
PDFJS.getDocument(typedarray).then(function(pdf) {
  for(let i = 1; i <= pdf.numPages; i++) {
    pdf.getPage(i).then(function(page) {
      page.getTextContent().then(function(textContent) {
        for(let j = 0; j < textContent.items.length; j++) {
          str.push(textContent.items[j].str);
        }
        parse(str);
      });
    });
  }
});

Ele consegue funcionar, mas, é claro, o problema é meuparse função é chamada4 vezes. Eu só quero ligarparse somente após a extração de 4 páginas. Qualquer conselho é bem-vindo. Por favor, me ilumine.