Por Thiago Hersan
Processamos 500 horas de filmagens de vídeo provenientes de 33 câmeras colocadas no Palácio do Planalto, que registraram a tentativa de golpe de Estado promovida pela extrema-direita brasileira no dia 8 de janeiro. Abaixo, detalhamos as etapas e ferramentas que utilizamos para análise e processamento de vídeo, bem como os resultados alcançados em cada fase até o desenvolvimento da interface de acesso aos vídeos. Discussões teóricas e análises do material, inclusive um documentário experimental, estão disponíveis aqui.
Uso de Repositório e Software
Configuramos um repositório para armazenar códigos e metadados extraídos, disponível em https://github.com/acervos-digitais/. Os scripts e metodologias que estamos desenvolvendo fazem uso de ferramentas de código aberto para facilitar o compartilhamento e a replicação. O trabalho é realizado principalmente utilizando a linguagem de programação Python, além de ferramentas, frameworks e bibliotecas como Jupyter Notebooks, OpenCV, scikit-learn e PyTorch.
Etapas de Processamento
As seguintes etapas são realizadas para processar os dados de vídeo:
Passo 0: Redimensionamento
Redimensionamos os vídeos para duas resoluções consistentes: 500×282 para visualização online e 1152×648 para análise. Esse processo é realizado usando ffmpeg com comandos apropriados.
Passo 1: Timestamping
Extraímos timestamps dos vídeos usando técnicas de Reconhecimento Óptico de Caracteres (OCR) com pré-processamento OpenCV.
Passo 2: Sumarização
Realizamos sumarização das cenas identificando momentos de movimento e ação nos vídeos usando técnicas como keyframing e análise de keyframes. Exploramos estratégias oferecidas por ferramentas como Katna, OpenCV e vframe.
Passo 3: Análise de Pessoas
Analisamos momentos de movimento nos vídeos para extrair informações sobre pessoas e suas atividades. Investigamos estratégias para determinar o número de pessoas, suas características (como cor da roupa, gênero e idade, quando possível) e as atividades nas quais estão envolvidas.
Passo 4: Objetos
Analisamos momentos de atividade nos vídeos para extrair informações sobre objetos móveis e estáticos usando processamento de imagem e modelos de classificação de objetos.
Passo 5: Interface de Navegação
Desenvolvemos uma interface para permitir visualização eficiente e navegação através do grande volume de vídeos processados. Acesse