Skip to content

Commit

Permalink
Corrections sur le dataset (#17)
Browse files Browse the repository at this point in the history
* Fixing some issues in the dataset
- Line typing using SegmOnto syntax to distinguish between handwritten textlines, machines typed and printed ones
- fixing some incomplete lines
- applying extra rules for superscript text and strikethrough text
- fixing the position of several baselines

* updating documentation and credits

* updating control workflow

* fixing typing error raised by HTRVX

* adding badges

* [Automatic] Update of the Catalog

* fixing stupid conflict...

* fixing stupid conflict...

* [Automatic] Update the Catalog & the Badges

---------

Co-authored-by: github-actions <[email protected]>
  • Loading branch information
alix-tz and github-actions authored Mar 1, 2024
1 parent 6ae99ad commit 9266adb
Show file tree
Hide file tree
Showing 53 changed files with 4,861 additions and 4,469 deletions.
23 changes: 0 additions & 23 deletions .github/workflows/HTRUC.yml

This file was deleted.

24 changes: 0 additions & 24 deletions .github/workflows/chocomufin.yml

This file was deleted.

95 changes: 95 additions & 0 deletions .github/workflows/htr-united.yml
Original file line number Diff line number Diff line change
@@ -0,0 +1,95 @@


# This file has been generated automatically with HTR-United <3 Github Actions form
name: HTR United Workflow
'on':
- push
- pull_request
permissions:
contents: write
jobs:
HTRUC:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v2
- name: Set up Python 3.8
uses: actions/setup-python@v2
with:
python-version: 3.8
- name: Install dependencies
run: |
python -m pip install --upgrade pip
pip install htruc
- name: Run HTRUC
run: |
htruc test htr-united.yml
HTR_United_Metadata_Generator:
runs-on: ubuntu-latest
env:
GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}
steps:
- uses: actions/checkout@v2
- name: Set up Python 3.8
uses: actions/setup-python@v2
with:
python-version: 3.8
- name: Install dependencies
run: |
python -m pip install --upgrade pip
pip install htr-united-metadata-generator htruc anybadge
- name: Run Report
run: |
humGenerator --chars -n NFD --parse alto --group ./data/**/**/*.xml --github-envs --to-json updated_metrics.json
cat envs.txt >> $GITHUB_ENV
- name: Get HTR United Badge Template
if: github.ref == 'refs/heads/main'
uses: andymckay/get-gist-action@master
with:
gistURL: https://gist.github.com/PonteIneptique/7813bb99f234b334fbf9c6c429ec2406
- name: Automatically update the Catalog & the Badges
if: github.ref == 'refs/heads/main'
run: |-
htruc update-volumes htr-united.yml updated_metrics.json --inplace
# Generate badges
mkdir -p badges
anybadge --value=${{ env.HTRUNITED_CHARS }} --file=badges/characters.svg --label=Characters --color=#007ec6 --overwrite --template=${{ steps.get.outputs.file }}
anybadge --value=${{ env.HTRUNITED_REGNS }} --file=badges/regions.svg --label=Regions --color=#007ec6 --overwrite --template=${{ steps.get.outputs.file }}
anybadge --value=${{ env.HTRUNITED_LINES }} --file=badges/lines.svg --label=Lines --color=#007ec6 --overwrite --template=${{ steps.get.outputs.file }}
anybadge --value=${{ env.HTRUNITED_FILES }} --file=badges/files.svg --label="XML Files" --color=#007ec6 --overwrite --template=${{ steps.get.outputs.file }}
git config user.name github-actions
git config user.email [email protected]
git add htr-united.yml ./badges/
git commit -m "[Automatic] Update the Catalog & the Badges" || echo "Nothing to commit"
git push || echo "Nothing to push"
ChocoMufin:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v2
- name: Set up Python 3.8
uses: actions/setup-python@v2
with:
python-version: 3.8
- name: Install dependencies
run: |
python -m pip install --upgrade pip
pip install chocomufin
- name: Run ChocoMufin
run: |
chocomufin generate table.csv ./data/**/**/*.xml
cat table.csv
HTRVX:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v2
- name: Set up Python 3.8
uses: actions/setup-python@v2
with:
python-version: 3.8
- name: Install dependencies
run: |
python -m pip install --upgrade pip
pip install htrvx
- name: Run HTRVX
run: |
htrvx --verbose --group --format alto --segmonto --xsd ./data/**/**/*.xml
23 changes: 0 additions & 23 deletions .github/workflows/htrvx.yml

This file was deleted.

32 changes: 0 additions & 32 deletions .github/workflows/humGenerator.yml

This file was deleted.

36 changes: 23 additions & 13 deletions CITATION.CFF
Original file line number Diff line number Diff line change
@@ -1,15 +1,25 @@
# This CITATION.cff file was generated with cffinit.
# Visit https://bit.ly/cffinit to generate yours today!

cff-version: 1.2.0
message: "If you use the data set, please cite it as below."
title: Memorials for Jane Lathrop Stanford
message: >-
If you use this dataset, please cite it using the metadata
from this file.
type: dataset
authors:
- family-names: 'Guimarães'
given-names: 'Ingrid'
- family-names: 'Maurel'
given-names: 'Perrine'
- family-names: 'Ozturk'
given-names: 'Yagmur'
title: "Memorials for Jane Lathrop Stanford"
version: 1.0
doi: 10.5281/zenodo.6126625
date-released: 2022-02-15
url: "https://github.com/PSL-Chartes-HTR-Students/HN2021-Memorials_Jane_Lathrop_Stanford"
type: "data"
- given-names: Ingrid
family-names: Guimarães
- given-names: Perrine
family-names: Maurel
- given-names: Yagmur
family-names: Ozturk
- given-names: Alix
family-names: Chagué
orcid: 'https://orcid.org/0000-0002-0136-4434'
identifiers:
- type: doi
value: 10.5281/zenodo.6126625
license: CC-BY-4.0
version: '1.0'
date-released: '2022-02-15'
7 changes: 6 additions & 1 deletion README.md
Original file line number Diff line number Diff line change
Expand Up @@ -3,6 +3,8 @@ Memorials for Jane Lathrop Stanford

[![DOI](https://zenodo.org/badge/431884683.svg)](https://zenodo.org/badge/latestdoi/431884683)

![characters badge](badges/characters.svg) ![regions badge](badges/regions.svg) ![lines badge](badges/lines.svg) ![files badge](badges/files.svg)

Ce projet a été réalisé par l'équipe composée de Ingrid GUIMARÃES, Yagmur OZTURK et Perrine MAUREL.
Ce projet a été réalisé dans le cadre du Module "Fondamentaux de l’informatique" assuré par Thibault CLÉRICE pour le Master 1 HN PSL à l'Ecole Nationale des Chartes.

Expand All @@ -29,4 +31,7 @@ Afin de télécharger des images de meilleure qualité, nous avons utilisé http

## Transcription

Notre retranscription en elle-même a cherché à retranscrire le texte *ipsis litteris*, sans le corriger, en conservant donc les erreurs éventuelles intrinsèques au document. Il convient toutefois de noter que dans certains cas, les documents présentaient des mentions imprécises qui n’avaient pas été prises en compte par les retranscriptions originelles, ou alors qui avaient été soulignées comme étant une retranscription incertaine. Nous avons alors fait le choix d’être plus exhaustif que la retranscription originelle si possible, et nous avons parfois fait des choix de retranscription différents sur la base de notre ressenti visuel lors du travail. En raison de ces choix, la taille d’une page s’est donc parfois avérée rallongée par rapport à l’estimation première.
Notre retranscription en elle-même a cherché à retranscrire le texte *ipsis litteris*, sans le corriger, en conservant donc les erreurs éventuelles intrinsèques au document. Il convient toutefois de noter que dans certains cas, les documents présentaient des mentions imprécises qui n’avaient pas été prises en compte par les retranscriptions originelles, ou alors qui avaient été soulignées comme étant une retranscription incertaine. Nous avons alors fait le choix d’être plus exhaustif que la retranscription originelle si possible, et nous avons parfois fait des choix de retranscription différents sur la base de notre ressenti visuel lors du travail. En raison de ces choix, la taille d’une page s’est donc parfois avérée rallongée par rapport à l’estimation première.

Addition:
Les règles de transcriptions ont été adaptées pour être compatibles avec les préconisations CREMMA/CATMuS, à savoir : les portions de texte suscrites sont précédées d'un "^", les mots barrés ou illisible sont encadrés des signes "⟦" et "⟧". Les zones ne sont pas tracées dans le document, mais l'ontologie segmOnto a été appliquée pour le typage des lignes, en suivant 5 types possibles: DefaultLine:Handwritten, DefaultLine:Print, DefaultLine:Typewritten, DefaultLine:Signature et InterlinearLine:Handwritten. Cela permet de distinguer aisément les lignes manuscrites ou tapuscrites des en-têtes préimprimées des papiers à lettre.
23 changes: 23 additions & 0 deletions badges/characters.svg
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
23 changes: 23 additions & 0 deletions badges/files.svg
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
23 changes: 23 additions & 0 deletions badges/lines.svg
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
23 changes: 23 additions & 0 deletions badges/regions.svg
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading

0 comments on commit 9266adb

Please sign in to comment.