Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Filtrer les symboles indésirables #50

Open
wants to merge 2 commits into
base: master
Choose a base branch
from
Open
Changes from 1 commit
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
2 changes: 2 additions & 0 deletions CommonVoice-Data/bano.py
Original file line number Diff line number Diff line change
Expand Up @@ -38,6 +38,7 @@
(re.compile(r'(\s|^)0(\s|$|,)'), r'\g<1>zéro\g<2>'),
(re.compile(r'(\s|^)0(\s|$|,)'), r'\g<1>zéro\g<2>'),
]
FILTER_SYMBOLES_REG=re.compile(r'[\{\}\[\]«»_\|\(\)\\…(^—)=&\*/µ#’@℗`~¹½¼¾¿º±↨↑↓▼→▲←↔∟§°‼¸‰‘¶“”•—´☺☻♥♦♠♣•◘○◙♂►♀☼♫♪¢¦Ξ≈˜†√ƒοΔδΛΓκιςζυσρΣγτθΘφΦηχξβωγΩΨ◊░▒▓│├╚┼┬┴└┐┤╝╗╬╣║ßÞ═™›³ª¯¬®]+')
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Haha, on a tout ça, ou t'as généré une liste au cas où?

Copy link
Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

hhh j'ai commencé par des symboles qui existe déja puis j'ajoute d'autres au cas où

Copy link

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

  • Les simples quotes (littéraires) ne doivent pas être strippées. Nombre de phrases en dépendent lourdement et deviendraient illisibles sans elles.
  • Les doubles quotes (littéraires) (2239) : Je suggérerais d'uniformiser sur les double-quote anglaises mais sans stripper. Je pense qu'elles aident à la lecture plus qu'elles ne la gêne. Ex: On parle alors de “taux spécial” ou Un jour, ils seront réunis dans un jardin, appelé “le jardin des âges”.
  • Les & : doivent être substitués par "et", exemple (Cocktail & Culture). 700 phrases deviendraient illisibles sans eux. Cas particulier, les expressions telles que Tara Sports & Entertainment se disent Tara Sports and Entertainment. Je pense qu'il faut donc les préserver.
  • Les ß : 239 noms propres allemands. Je suis d'avis de tout bonne supprimer ces phrases où à défaut de remplacer par "ss".
  • Les (dashes littéraires) : Ambigu. 2253 occurrences. Parfois utilisé comme séparateur comme -, ex Saskatoon—Rosetown—Biggar mais le plus souvent comme césure Il reliait les fortifications — aujourd’hui disparues — de la ville telle une parenthèse et le plus souvent une virgule. Quelque soit le décision, ce n'est pas à supprimer.
  • ω et multiples autres lettres grecques (251): A remplacer par "omega" sans quoi les phrases deviennent incompréhensibles. Ex: Par exemple, le type d'ordre des nombres naturels est ω. ou Il utilise bien sûr également la notation ∼, mais jamais ω ou Θ
  • Pour les symboles, à supprimer je dirais. Ex: Le symbole † indique un taxon éteint.
  • Les = (100) : Supprimer les phrases. Elle sont le plus souvent incompréhensibles. Ex: ==JOURNEE un SCENE un== Le bord de la Tamise. ou Bas latin traucum = trou, d’origine gauloise. Parfois remplacer par "égal" aurait eu du sens, eg: Quand K=R, elle fournit aussi des informations sur le groupe de Lie associé mais identifier ces cas est impossible.
  • Les 5694 : À supprimer en fin de phrase (ils n'apportent pas grand chose en prononciation). Eg: Très vite, la fête dégénère…. Ils indiquent parfois une phrase inadéquate (coupure), eg: Cette panne est née ….. En milieu de phrase, il indique une pause utile à la diction, ex: Mais, en vain… Esseulé et démuni, André dissimule ses problèmes à sa famille.
  • Les 164 () peuvent se substituer par des virgules dans certains cas mais elles sont largement utilisées pour les didascalies (assemblée-nationale) et certaines adresses.
  • Le ° et º (93) peut être remplacé par "numéro" lorsque précédé d'un "n". Autrement, la phrase devrait être supprimée complètement (ex douzeº pour douzième).
  • Le reste (229 occurrences) indique systématiquement des phrases à supprimer. Formule mathématique, OCR/template ou formatage erroné,



def format_address(address, template):
Expand All @@ -62,6 +63,7 @@ def format_address(address, template):

str = maybe_normalize(str, mapping=normalizers)
str = filter_numbers(str)
str = FILTER_SYMBOLES_REG.sub('', str)
return str.strip()


Expand Down