Ложное разбиение предложений внутри кавычек и скобок, разбиение списков #11

Ogonik · 2020-12-02T09:29:59Z

text = "1. Текст юридической нормы согласно постановлению Правительства РФ от 25.05.2020 №3543 "О размещении информации и т.д. Общие положения" (зарегистрировано Министервом юстиции РФ. Регистрационный номер 3333) выделяются М.М. Мишустиным следующие истории: \n1. История 1; \n2. История 2; \n3.2. История 3\nа) История 2."

На входе есть такой текст (см. выше). По юридическим нормам русского языка это одно предложение

На выходе имеем ложное разбиение предложений внутри скобок, внутри кавычек, и при обработке списков.

Вопросы:

Это сознательное решение о подобном поведении в случаях обработки кавычек и скобок?
Можете подсказать точки изменений, которые позволят подобные вещи исправить и считать текст выше одним предложением?

Заранее спасибо :)

kucenko · 2021-02-09T10:50:51Z

Добрый день, тоже столкнулся с похожей проблемой

По поводу кавычек, я заметил что такая проблема происходит при разбиении предложения по ".", в итоге предложения бьются на несколько. Для решения этой проблемы я реализовал свое правило

Исходя из кода можно писать свои правила вот так:
sentenize_my = SentSegmenter(split=SentSplitter(pattern=DELIMITER, window=10), rules=MY_RULES + RULES)

Но это не задокументировано, потому нужно понимать риски

Соответственно в MY_RULES будет массив со своими правилами

Так же проблема с разделителями решается с помощью добавления своих разделителей в DELIMITER

Код можно почитать по пути segmenters/sentenize.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Ложное разбиение предложений внутри кавычек и скобок, разбиение списков #11

Ложное разбиение предложений внутри кавычек и скобок, разбиение списков #11

Ogonik commented Dec 2, 2020

kucenko commented Feb 9, 2021

Ложное разбиение предложений внутри кавычек и скобок, разбиение списков #11

Ложное разбиение предложений внутри кавычек и скобок, разбиение списков #11

Comments

Ogonik commented Dec 2, 2020

kucenko commented Feb 9, 2021