Skip to content
This repository has been archived by the owner on Mar 23, 2023. It is now read-only.

Padronizar esquemas de extração #3

Open
ppKrauss opened this issue Dec 26, 2017 · 0 comments
Open

Padronizar esquemas de extração #3

ppKrauss opened this issue Dec 26, 2017 · 0 comments

Comments

@ppKrauss
Copy link
Contributor

Por exemplo no lexml-dou está sendo proposto que o onlyContent ocorre dentro da tag <article id="oficial">. Convenções de article e multi-article podem ser definidas aqui, definindo inicio e fim do conteúdo em foco e como descartar o conteúdo para inserir em um template simplificado.

Uma vez extraído o conteúdo da página, pode-se reconstituir a partir apenas da reprodução de alguns atributos caso tenham sido declarados, como lang e via de regra o charset da tag meta. A tag title é algo a se avaliar, pois é pressuposto um título consistente em tags como article.

<!DOCTYPE html>
<html lang="pt-br">
<head>
  <meta charset="utf-8"/>
  <title>Título curto</title>
</head>
<body>
{{aqui-o-onlyContent}}
</body>
</html>
Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant