Graças ao aprendizado de máquina, os conteúdos visuais de 16 milhões de jornais americanos antigos agora são digitalizados e indexados

A mídia física, como jornais e livros, pode decair com o tempo. Mas, com a descoberta da digitalização, tornou-se fácil convertê-los para arquivar dados em formato digital. Além disso, esse processo permite manter muitas mídias (jornais, revistas, livros, imagens e diferentes formas de anotações) mantendo sua autenticidade.

Mas quando você é um pesquisador ou simplesmente um amador, e tem apenas documentos antigos disponíveis, você deve consultar meticulosamente para encontrar a referência lambda que lhe interessa e que ilustrará suas observações. E aí é mais difícil, porque a tecnologia capaz de ajudá-lo com esses propósitos ainda não está disponível. Bem, até agora.

De fato, Ben Lee, pesquisador da Universidade de Washington, teve a boa ideia de digitalizar conteúdo visual de documentos da Biblioteca do Congresso, ou aproximadamente 16 milhões de páginas de jornais. E ele foi além, pois com a ajuda de um sistema de aprendizado de máquina, essas referências serão agora indexado e acessível em um clique.

Milhões de imagens de três séculos, reunidas em um banco de dados

Lee e sua equipe se inspiraram de fato no projeto Chronicling America, que consiste em selecionar e coletar informações de jornais antigos um a um, para digitalizá-lo e classificá-lo por meio de legendas e referências relacionadas a ele. E tudo isso é feito por um agente humano.

Desta vez, para fazer o mesmo com ilustrações e conteúdos visuais publicados em jornais americanos de 1789 a 1963, os pesquisadores contaram com a ajuda de um programa de computador de aprendizado de máquina baseado no mesmo princípio que eles projetaram.

19 dias de trabalho permitiram processar 16 milhões de páginas de jornais, algo que deixou Lee orgulhoso. “É o maior trabalho de TI que já fiz”, diz ele com razão.

Durante a operação, as imagens são digitalizadas e as legendas registradas como descrições confiáveis, depois transformadas em metadados. Isso torna possível classificar adequadamente o conteúdo visual processado para indexá-lo.

Dessa forma, bastará posteriormente digitar as palavras-chave corretas em uma espécie de buscador chamado Newspaper Navigator, para encontrar o conteúdo visual desejado em apenas um clique.

O Newspaper Navigator pode servir de modelo para a digitalização de outros tipos de conteúdo

Esta pesquisa é um passo importante para refinar as técnicas de indexação de diferentes documentos, especialmente os históricos.

Mais importante, Lee e sua equipe não apenas alcançaram a façanha, mas também ofereceram a outros pesquisadores que usem seu conceito para criar seus próprios sistemas de indexação e navegação, a fim de beneficiar a todos. .

Além disso, as imagens e resultados obtidos com o Newspaper Navigator são gratuitos e podem ser usados ​​livremente. Para informação, a ferramenta estará disponível este verão.

Artigos Relacionados

Back to top button