Catalogação com Inteligência Artificial - Acervos Digitais e Pesquisa

Por Thiago Hersan

Processamos 500 horas de filmagens de vídeo provenientes de 33 câmeras colocadas no Palácio do Planalto, que registraram a tentativa de golpe de Estado promovida pela extrema-direita brasileira no dia 8 de janeiro. Abaixo, detalhamos as etapas e ferramentas que utilizamos para análise e processamento de vídeo, bem como os resultados alcançados em cada fase até o desenvolvimento da interface de acesso aos vídeos. Discussões teóricas e análises do material, inclusive um documentário experimental, estão disponíveis aqui.

Uso de Repositório e Software

Configuramos um repositório para armazenar códigos e metadados extraídos, disponível em https://github.com/acervos-digitais/. Os scripts e metodologias que estamos desenvolvendo fazem uso de ferramentas de código aberto para facilitar o compartilhamento e a replicação. O trabalho é realizado principalmente utilizando a linguagem de programação Python, além de ferramentas, frameworks e bibliotecas como Jupyter Notebooks, OpenCV, scikit-learn e PyTorch.

Etapas de Processamento

As seguintes etapas são realizadas para processar os dados de vídeo:

Passo 0: Redimensionamento

Redimensionamos os vídeos para duas resoluções consistentes: 500×282 para visualização online e 1152×648 para análise. Esse processo é realizado usando ffmpeg com comandos apropriados.

Passo 1: Timestamping

Extraímos timestamps dos vídeos usando técnicas de Reconhecimento Óptico de Caracteres (OCR) com pré-processamento OpenCV.

Passo 2: Sumarização

Realizamos sumarização das cenas identificando momentos de movimento e ação nos vídeos usando técnicas como keyframing e análise de keyframes. Exploramos estratégias oferecidas por ferramentas como Katna, OpenCV e vframe.

Passo 3: Análise de Pessoas

Analisamos momentos de movimento nos vídeos para extrair informações sobre pessoas e suas atividades. Investigamos estratégias para determinar o número de pessoas, suas características (como cor da roupa, gênero e idade, quando possível) e as atividades nas quais estão envolvidas.

Passo 4: Objetos

Analisamos momentos de atividade nos vídeos para extrair informações sobre objetos móveis e estáticos usando processamento de imagem e modelos de classificação de objetos.

Passo 5: Interface de Navegação

Desenvolvemos uma interface para permitir visualização eficiente e navegação através do grande volume de vídeos processados. Acesse