You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
text = "1. Текст юридической нормы согласно постановлению Правительства РФ от 25.05.2020 №3543 "О размещении информации и т.д. Общие положения" (зарегистрировано Министервом юстиции РФ. Регистрационный номер 3333) выделяются М.М. Мишустиным следующие истории: \n1. История 1; \n2. История 2; \n3.2. История 3\nа) История 2."
На входе есть такой текст (см. выше). По юридическим нормам русского языка это одно предложение
На выходе имеем ложное разбиение предложений внутри скобок, внутри кавычек, и при обработке списков.
Вопросы:
Это сознательное решение о подобном поведении в случаях обработки кавычек и скобок?
Можете подсказать точки изменений, которые позволят подобные вещи исправить и считать текст выше одним предложением?
Заранее спасибо :)
The text was updated successfully, but these errors were encountered:
По поводу кавычек, я заметил что такая проблема происходит при разбиении предложения по ".", в итоге предложения бьются на несколько. Для решения этой проблемы я реализовал свое правило
Исходя из кода можно писать свои правила вот так: sentenize_my = SentSegmenter(split=SentSplitter(pattern=DELIMITER, window=10), rules=MY_RULES + RULES)
Но это не задокументировано, потому нужно понимать риски
Соответственно в MY_RULES будет массив со своими правилами
Так же проблема с разделителями решается с помощью добавления своих разделителей в DELIMITER
Код можно почитать по пути segmenters/sentenize.py
text = "1. Текст юридической нормы согласно постановлению Правительства РФ от 25.05.2020 №3543 "О размещении информации и т.д. Общие положения" (зарегистрировано Министервом юстиции РФ. Регистрационный номер 3333) выделяются М.М. Мишустиным следующие истории: \n1. История 1; \n2. История 2; \n3.2. История 3\nа) История 2."
На входе есть такой текст (см. выше). По юридическим нормам русского языка это одно предложение
На выходе имеем ложное разбиение предложений внутри скобок, внутри кавычек, и при обработке списков.
Вопросы:
Заранее спасибо :)
The text was updated successfully, but these errors were encountered: