Orientações de uso em relação ao Documento.
Para que esse processo ocorra da melhor forma, sugerimos alguns requisitos básicos em relação aos documentos que passarão pelo processo, desde seu aspecto, formato salvo e processo de digitalização.
O Analista Contábil Digital utiliza a tecnologia OCR (Optical Character Recognition) para a leitura, acompanhada da inteligência artificial para a interpretação dos documentos. Para obtermos bons resultados na leitura e extração de dados dos documentos devemos:
- Primeiramente dar preferência a documentos digitais originais, adquiridos diretamente do estabelecimento emissor, sem passar por um processo de digitalização, salvos em formato PDF Editável.
- Existem 2 tipos de documentos em PDF, sendo subdivididos entre PDF Editável e PDF Não Editável. A solução efetua a leitura dos dois tipos, mas para a melhor utilização da ferramenta recomendamos a utilização de PDF Editável, que são PDFs passiveis de exportação em texto.
- Configurar a impressora/scanner para resolução de no mínimo 300 DPI. DPI é uma sigla utilizada no mundo da tecnologia, que significa Dots Per inch, em português Pontos por Polegadas. Representa o número de pontos que podem ser encontrados em uma polegada de uma determinada imagem. É comum as pessoas se referirem ao DPI como resolução da imagem. Devemos observar que quanto mais pontos por polegadas (DPI), maior será o arquivo no processamento, por ter mais dados a serem lidos e interpretados.
Alguns fatores que podem ocasionar problemas na leitura do documento:
- Documento manuscrito, a solução não consegue realizar a leitura e extração de dados, pelo fato do mesmo conter caligrafia irregular, sem padronização (tamanho da fonte, intensidade, cor, etc.);
- As características visuais do documento, devem estar em perfeitas condições para a digitalização:
- Estrutura do documento danificada: rasgos, furos, cortes, etc.
- Manchas, sujeira, borrão, informação apagada, etc.
- O equipamento estar com algum problema como: vidro da digitalizadora com riscos, manchas ou qualquer outro defeito que interfira na digitalização;
- O equipamento deve possuir a capacidade de efetuar a digitalização em 300 DPI, essa opção já vem como padrão na grande maioria dos equipamentos;
- Não recomendamos a digitalização de dois ou mais documentos na mesma página, pois podem ocorrer problemas na configuração de pesquisa. Os documentos deverão ser digitalizados individualmente.
Digitalização
Para melhor digitalização, sugerimos algumas configurações a serem utilizadas como padrão, quando for necessário escanear o documento:
Papel A4 Branco
O Papel A4 Branco tem uma maior qualidade, tornando mais fácil a leitura das informações do arquivo, se usadas as seguintes configurações:
- A digitalização tem que ser em 300 DPI;
- Texto ou Preto e Branco;
- Monocromático;
- Brilho Máximo;
- A imagem deve estar na vertical, não podendo estar torta ou na diagonal.
Papel A4 Reciclável
A digitalização de documentos impressos em papel reciclado também exige maior cuidado, pois esse tipo de papel tem baixa qualidade. Para esse tipo de documento, recomenda-se:
- Digitalizar em resolução 300 dpi;
- Monocromático;
- Brilho máximo para tornar a imagem mais clara;
- A imagem deve estar na vertical, não podendo estar torta ou na diagonal;
- Texto ou Preto e Branco.
Essas configurações propostas visam minimizar os problemas com a qualidade da imagem, que podem prejudicar o resultado do processamento do OCR.
Demais Papéis
Para os demais tipos, verificar o caso e testar a melhor configuração compatível com o seu equipamento. Exemplos: cupons fiscais, comprovantes de pagamentos bancários e documentos com autenticação de pagamento.
Ainda pode existir casos em que documentos visualizados perfeitamente pelo olho humano, não obtenham uma interpretação total pela ferramenta, pois a inteligência artificial pode equivocar-se, ocorrendo a troca de caracteres por similaridade. Isso ocorre por que o Analista Contábil Digital trabalha com inteligência artificial, existindo a possibilidade de uma margem mínima de erros, mesmo quando o documento está nos padrões citados anteriormente. Para esses casos temos diversas opções no sistema, tais como: lançamento direto, ou manutenção somente no dado não lido.