Projeto de script para web scraping da página de Anais da Associação Nacional dos Programas de Pós-Graduação em Comunicação - COMPÓS desenvolvido pelo Laboratório de Humanidades Digitais da UFBA.
O Script Anais-COMPÓS realiza a raspagem dos papers em pdf de toda a Biblioteca com os Anais dos Encontros entre 2000 até 2020 (disponíveis atualmente na site). Além disso, ele gera um base de dados com: edição COMPÓS, nome dos autores, título e link para o pdf.
A ferramenta foi desenvolvida apenas para pesquisas acadêmicas, sem fins lucrativos.
Esse script foi pensado como uma ferramenta metodológica da pesquisa em humanidades digitais. Sua criação é fruto das reflexões e experiências empíricas de pesquisadores de diversas áreas das humanidades que têm enfrentado o desafio de fazer ciências humanas no mundo digital
É crescente o número de repositórios de fontes e dados on-line, assim como o acesso, busca, pesquisa e, muitas vezes, dependência de pesquisadores/as a eles.
Os Encontros da COMPÓS acontecem anualmente como espaço de intercâmbio acadêmico entre os pesquisadores dos vários programas de pós-graduação em comunicação. Eles são estruturados sob a forma de Grupos de Trabalhos (GTs), onde são apresentados e debatidos estudos que buscam refletir sobre o avanço científico, tecnológico e cultural no campo da comunicação.
Para executar o Script Anais-Anpuh, você precisa acessar a pasta da ferramenta no GitHub. Clone ou faça download do repositório e salve na pasta que deseja que os resultados e seus respectivos arquivos sejam armazenados. Antes de executar o script, é preciso preparar seu computador, como mostramos abaixo.
O R e RStudio são gratuitos e possuem versões para Windows, Mac e Linux.
A instalação é bastante fácil e em geral você apenas tem que seguir as instruções da tela.
Para instalar o R, baixe a versão adequada para seu computador em: https://cloud.r-project.org/
Para instalar o RStudio, baixe a versão adequada para seu computador em: https://www.rstudio.com/products/rstudio/download/
Além disso, para ter um ambiente completo de desenvolvimento no R, recomendamos, adicionalmente, instalar:
– MikTex (para Windows: http://miktex.org/download ou MacTex (para Mac: https://tug.org/mactex/downloading.html para relatórios em latex.
– RTools (para Windows: https://cran.r-project.org/bin/windows/Rtools/ ou Xcode com command line tools (para Mac na AppStore do Mac), para criar pacotes, usar C++ com R entre outras coisas
Após a instalação, vc pode executar o arquivo compos.R que está na pasta R direto do RStudio.
Vocêr vai precisar instalar as seguintes bibliotecas:
O script retorna para o usuário todos os pdfs disponíveis em todas as páginas de todos os anais da COMPÓS DE 2000 até 2020. Os arquivos foram nomeados com o ano e o título do trabalho, então posteriormente podem ser criadas pastas com o nome do evento/ano e alocadas os pdfs em cada uma delas.
O script também gera um arquivo CSV (comma-separated values) contendo as seguintes informações para cada paper: Ano, Edição, Nome do GT, Título, Autores, e Link do Arquivo. Esse arquivo pode ser aberto como uma planilha e trabalhado em banco de dados.
O script está funcionando perfeitamente. Qualquer alteração no site percebida pelos usuários ou sugestões de aprimoramento são bem vindas.
MIT licensed
Copyright (C) 2021 Leonardo F. Nascimento, Tarssio Barreto, LABHDUFBA