Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Obtenção das publicações geradas por uma determinada organização #7

Closed
felps opened this issue Nov 18, 2021 · 8 comments
Closed

Comments

@felps
Copy link

felps commented Nov 18, 2021

Além da busca por palavras chave, seria interessante poder incluir uma listagem de organizações ("Presidência da República", "Ministério da Economia", "Agência Nacional de Águas", etc) para que sejam incluídas no clipping todas as publicações geradas por essas organizações.

@nitaibezerra
Copy link
Contributor

Atualmente a API da Imprensa Nacional não possibilita a filtragem por órgão, tornando essa funcionalidade um trabalho mais complexo. A aplicação teria que realizar uma filtragem posterior para isso. Porém já tivemos conhecimento de que existe uma API nova sendo desenvolvida que possui esse campo estruturado e vai possibilitar incluir essa funcionalidade.

@felps
Copy link
Author

felps commented Dec 7, 2021

Então... utilizando a mesma estratégia da pesquisa, dá para fazer isso pela página https://www.in.gov.br/leiturajornal passando no payload
[ ('data', reference_date.strftime('%d-%m-%Y'), ('org', organization), ('section', section_name) ]

Daí usa o beautifulsoup para localizar o script de id params que traz o json filtrado.

Fiz isso aqui e funcionou redondo.

@augusto-herrmann
Copy link
Member

Tem que ver qual é o cronograma previsto para a nova API pois, se for chegar em breve, não vale o esforço de fazer a raspagem com BeautifulSoup para depois jogar fora e reimplementar com a nova API.

@nitaibezerra
Copy link
Contributor

É uma solução muito interessante, @felps. Não conhecia essa página /leiturajornal. Mas concordo com o @augusto-herrmann que devemos dar prioridade à API. Estamos em contato com a Imprensa Nacional e vamos indagá-los sobre a possibilidade da API possibilitar também essa filtragem.

@nitaibezerra
Copy link
Contributor

Acabo de notar que a página /consulta agora também apresenta os filtros por órgão e "suborgão" da mesma forma que @felps constatou na /leiturajornal (olha na imagem abaixo). Com isso a implementação dessa issue fica mais simples. Bastaria apenas criar essas opções no YAML e repassar os valores através das funções até a chamada na API. O problema que vejo é que a chave utilizada para a consulta é o nome do órgão e não uma chave mais perene (como o código SIORG). O nome dos órgãos muda e isso poderá causar quebra na pesquisa.

image

@felps
Copy link
Author

felps commented Dec 17, 2021

Então... Não exatamente... Se entendi direito, a página de consulta ela usa esse critério como filtro após a pesquisa pelo texto, não como um critério puro.

Na data de hoje (17/12/2021), a pesquisa com query params

   ('q', 'felipe'),
   ('s', 'todos'),
   ('orgPrin', 'Presidência da República')
]```
retorna 395 resultados mas se tirarmos o `('q', 'felipe')` ou usarmos `('q', '')` ele retorna vazio. 

@nitaibezerra
Copy link
Contributor

Isso significa que o parâmetro q é obrigatório. Como o Ro-dou funciona orientado aos termos, ou seja, não haverá o caso em que o termo será vazio, acredito que essa limitação não inviabilize. Todavia ainda vejo o uso do nome do órgão como chave na pesquisa como um problema, como relatei antes.

@edulauer
Copy link
Member

Feature implementado no PR #77

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants