como extrair corretamente o texto de um pdf usando pdf.js
Eu sou novo no ES6 e no Promise. Estou tentando pdf.js para extrair textos de todas as páginas de um arquivo pdf em uma matriz de seqüência de caracteres. E quando a extração for concluída, quero analisar a matriz de alguma forma. Diga arquivo pdf (transmitido portypedarray
corretamente) tem4
páginas e meu código é:
let str = [];
PDFJS.getDocument(typedarray).then(function(pdf) {
for(let i = 1; i <= pdf.numPages; i++) {
pdf.getPage(i).then(function(page) {
page.getTextContent().then(function(textContent) {
for(let j = 0; j < textContent.items.length; j++) {
str.push(textContent.items[j].str);
}
parse(str);
});
});
}
});
Ele consegue funcionar, mas, é claro, o problema é meuparse
função é chamada4
vezes. Eu só quero ligarparse
somente após a extração de 4 páginas. Qualquer conselho é bem-vindo. Por favor, me ilumine.