Skip to content

Projeto de script para web scraping da pagina de Anais da COMPÓS

Notifications You must be signed in to change notification settings

LABHDUFBA/Anais-COMPOS-scraper

Repository files navigation

made-with-R MIT license

Script Anais-COMPOS-Scraper

Projeto de script para web scraping da página de Anais da Associação Nacional dos Programas de Pós-Graduação em Comunicação - COMPÓS desenvolvido pelo Laboratório de Humanidades Digitais da UFBA.

O Script Anais-COMPÓS realiza a raspagem dos papers em pdf de toda a Biblioteca com os Anais dos Encontros entre 2000 até 2020 (disponíveis atualmente na site). Além disso, ele gera um base de dados com: edição COMPÓS, nome dos autores, título e link para o pdf.


A ferramenta foi desenvolvida apenas para pesquisas acadêmicas, sem fins lucrativos.


Esse script foi pensado como uma ferramenta metodológica da pesquisa em humanidades digitais. Sua criação é fruto das reflexões e experiências empíricas de pesquisadores de diversas áreas das humanidades que têm enfrentado o desafio de fazer ciências humanas no mundo digital

Defendemos a importância da apropriação, uso, desenvolvimento e aprimoramento de ferramentas digitais para as humanidades, assim como a urgência na sofisticação teórica, metodológica e epistemológica sobre as chamadas Humanidades Digitais

É crescente o número de repositórios de fontes e dados on-line, assim como o acesso, busca, pesquisa e, muitas vezes, dependência de pesquisadores/as a eles.

Os Encontros da COMPÓS acontecem anualmente como espaço de intercâmbio acadêmico entre os pesquisadores dos vários programas de pós-graduação em comunicação. Eles são estruturados sob a forma de Grupos de Trabalhos (GTs), onde são apresentados e debatidos estudos que buscam refletir sobre o avanço científico, tecnológico e cultural no campo da comunicação.


Índice

Instalação

Para executar o Script Anais-Anpuh, você precisa acessar a pasta da ferramenta no GitHub. Clone ou faça download do repositório e salve na pasta que deseja que os resultados e seus respectivos arquivos sejam armazenados. Antes de executar o script, é preciso preparar seu computador, como mostramos abaixo.

R e RStudio

O R e RStudio são gratuitos e possuem versões para Windows, Mac e Linux.

A instalação é bastante fácil e em geral você apenas tem que seguir as instruções da tela.

Para instalar o R, baixe a versão adequada para seu computador em: https://cloud.r-project.org/

Para instalar o RStudio, baixe a versão adequada para seu computador em: https://www.rstudio.com/products/rstudio/download/

Além disso, para ter um ambiente completo de desenvolvimento no R, recomendamos, adicionalmente, instalar:

– MikTex (para Windows: http://miktex.org/download ou MacTex (para Mac: https://tug.org/mactex/downloading.html para relatórios em latex.

– RTools (para Windows: https://cran.r-project.org/bin/windows/Rtools/ ou Xcode com command line tools (para Mac na AppStore do Mac), para criar pacotes, usar C++ com R entre outras coisas

Após a instalação, vc pode executar o arquivo compos.R que está na pasta R direto do RStudio.

Bibliotecas e módulos

Vocêr vai precisar instalar as seguintes bibliotecas:

  1. RSelenium
  2. tidyverse
  3. rvest

Chromedriver

  1. Instruções sobre como instalar o Chromedriver no Windows 10 :

  2. Instruções sobre como instalar o Chromedriver no Ubuntu :

Resultados

O script retorna para o usuário todos os pdfs disponíveis em todas as páginas de todos os anais da COMPÓS DE 2000 até 2020. Os arquivos foram nomeados com o ano e o título do trabalho, então posteriormente podem ser criadas pastas com o nome do evento/ano e alocadas os pdfs em cada uma delas.

O script também gera um arquivo CSV (comma-separated values) contendo as seguintes informações para cada paper: Ano, Edição, Nome do GT, Título, Autores, e Link do Arquivo. Esse arquivo pode ser aberto como uma planilha e trabalhado em banco de dados.

O script está funcionando perfeitamente. Qualquer alteração no site percebida pelos usuários ou sugestões de aprimoramento são bem vindas.

Licença

MIT licensed

Copyright (C) 2021 Leonardo F. Nascimento, Tarssio Barreto, LABHDUFBA

About

Projeto de script para web scraping da pagina de Anais da COMPÓS

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages