Sistema de Catalogação de Acervo Bibliográfico

⚙️ Instalação e Execução

  1. Abra o notebook notebook.ipynb no Google Colab.
  2. Monte o Google Drive para acessar a pasta de imagens/PDFs.
  3. Verifique se o caminho do arquivo JSON está correto no código.
  4. Execute todas as células do notebook.

O código instalará automaticamente todas as dependências necessárias, incluindo OCR e bibliotecas de processamento de imagens.

🧠 Funcionalidades

  • OCR robusto em português com EasyOCR.
  • Suporte a imagens (.jpg, .png, .jpeg) e PDFs.
  • Pré-processamento das imagens para aumentar a precisão do OCR (cinza, contraste, equalização).
  • Pareamento automático de capas e contracapas.
  • Pós-processamento de texto, incluindo correção de palavras quebradas e remoção de caracteres inválidos.
  • Evita duplicidade na planilha, gravando apenas novos arquivos.
  • Registro dos seguintes campos na planilha:
    • Título
    • Autor
    • Ano
    • Editora
    • Nome do arquivo

📝 Observações

  • A pasta de imagens/PDFs deve estar organizada e numerada, seguindo o padrão 1.1.capa, 1.1.contra para manter o pareamento correto.
  • O OCR funciona melhor em imagens nítidas e legíveis. PDFs digitalizados de baixa qualidade podem precisar de ajuste manual.
  • É recomendado usar GPU no Colab para acelerar o processamento, especialmente se houver muitas imagens ou PDFs grandes.

💡 Sugestões de melhoria futura

  • OCR paralelo em múltiplas GPUs ou threads.
  • Reconstrução automática de títulos espalhados em várias linhas.
  • Integração com banco de dados externo para consultas e buscas avançadas.

🛠 Tecnologias utilizadas

🛠️Fluxo de Funcionamento