Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Deux retours à la ligne d'affilé (changement de paragraphe) ne sont pas considérés comme un changement de phrase dans nlp.add_pipe("eds.sentences") #241

Open
JudithCo opened this issue Dec 22, 2023 · 1 comment

Comments

@JudithCo
Copy link

Description

Lors de l'utilisation de nlp.add_pipe("eds.sentences"), deux retours à la ligne d'affilés (ou séparés par un espace) ne sont pas considérés comme un changement de phrase, certains changements de paragraphes ne sont donc pas considérés comme des changements de phrase. C'est notamment le cas quand le deuxième paragraphe commence par une date (et non par une lettre majuscule) et que les points ne sont pas utilisés.

How to reproduce the bug

import spacy

nlp = spacy.blank("eds")
nlp.add_pipe("eds.sentences")
nlp.add_pipe("eds.matcher", config=dict(terms={"match": "match"}))

text = """ANTECEDANT \n \n 15/03/2020 Antécédant 1  \nv antecedant numero 2  \nantecedant 3  \n \n 28/03/2021 Antécédant 4\n relecture d'antécédant 4 confirmé match\n> Antécédant 5  \n\nHOSPITALISATION \nResultats sang  150ml \nRésultats  taille 1m76   \n \n 15/06/2021 03:36 Patient Mme X\n Activité physique régulière  \n \n  \n  CONCLUSION\nPas d'infection virale."""

doc = nlp(text)
print(doc.ents[0].sent)

Your Environment

  • Operating System: Jupyterlab
  • Python Version Used: 3.7
  • spaCy Version Used: 3.7.2
  • EDS-NLP Version Used: 0.9.1
  • Environment Information:
@percevalw
Copy link
Member

Hello @JudithCo, est-ce que tu rencontres souvent des débuts de phrase en minuscule ?
En reprenant ton exemple, les dates qui commencent par "le" en minuscule sont délicates à gérer car si c'est un simple retour à la ligne => pas de nouvelle phrase, si c'est deux retours à la ligne => c'est ambigü.

@aricohen93, un avis ?

ANTECEDANT 
 
 le 15/03/2020 Antécédant 1  
v antecedant numero 2  
antecedant 3  
 
 le 28/03/2021 Antécédant 4
 relecture d'antécédant 4 confirmé match
> Antécédant 5  

HOSPITALISATION 
Resultats sang  150ml 
Résultats  taille 1m76   
 
 15/06/2021 03:36 Patient Mme X
 Activité physique régulière  
 
  
  CONCLUSION
Pas d'infection virale.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants