Обновление скрипта "Поиск по набору регэкспов" для FBE - тестируем!

Дошли руки существенно дополнить, обновить, почистить и структурировать по смыслу скрипт "Поиск по набору регэкспов" для Fiction Book Editor (FBE).

Автор этого скрипта (как и многих других скриптов для FBE) - Sclex, за что ему отдельное гран мерси.

Наполнение скрипта мое, Sclex-а + учтены все возможные пожелания книгоделов из двух старых здешних тем:

Типичные ошибки распознавания...
https://lib.rus.ec/node/268750
и
Курьезы сканировщика:
http://lib.rus.ec/comment/372489

Пользоваться и тестировать могут все желающие, отзывы, примеры, предложения по улучшению категорически приветствуются.

Просьба приводить конкретные примеры:

- ошибок скрипта, ложных срабатываний
- ошибок распознавания, которые можно включить в скрипт
- прочих пожеланий и усовершенствований.

Очень приветствуется помощь тех, кто хорошо знаком с регулярными выражениями для дальнейшего совершенствования скрипта.

Ссылка на последнюю версию скрипта (06-09-2019):
https://my-files.ru/t6n9w1

Заменить этим файлом имеющийся файл (или положить новый вариант скрипта рядом) в папке:
... /Fiction Book Editor/Scrips/06_Чистка

Скрипту удобнее назначить горячую клавишу F2 (меню: Сервис-Настройки-Клавиши-Скрипты-Поиск по набору регэкспов).

Перед запуском данного скрипта лучше обработать текст скриптами "Генеральная уборка", "Латиница в кириллице"
Тогда будет гораздо меньше лишних срабатываний.

По мере накопления отзывов о работе скрипта, планирую периодически пополнять скрипт и выкладывать обновленную версию.

P.S. На Флибусте открыта аналогичная тема, можно писать в любую.
http://www.flibusta.is/node/441303

Комментарии

Отлично, давно было пора собрать до кучи все наработки.
Спасибо, TaKir!

Спасибо. Давненько такие штучки не обновлялись.
Проверил на одном файле.
Редактор ругается на данную строку:

Цитата:
addRegExp(" кое[A-Za-zА-яЁё]{3})","i","Найдено: возможно, пропущенный дефис");

И часто появляется сообщение, что сценарий тормозит работу эксплорера.
В остальном всё норм.

addRegExp("( кое[A-Za-zА-яЁё]{3})","i","Найдено: возможно, пропущенный дефис");
вот так должно быть, потерялась скобка перед "пробел+кое"
А про торможение эксплорера у меня ни разу не ругалось. Т.е. вообще с 2007 г никогда такого не было.

UPD. Ссылка на неругающийся файл обновлена в старт-посте.

TaKir написал:
А про торможение эксплорера у меня ни разу не ругалось. Т.е. вообще с 2007 г никогда такого не было.
Это, видимо, зависит от доступной вычислительной мощности. Больше чем 300 поисковых команд - немалое число. Пока скрипт их все проверит...
Аватар пользователя Isais

Спасибо за обновление!
У меня в ФБЕ стоит версия 2.9, дополненная wotti, Roxana и другими. Материалы версии 2.9 вошли в предложенный релиз?

Isais написал:
Спасибо за обновление!
У меня в ФБЕ стоит версия 2.9, дополненная wotti, Roxana и другими. Материалы версии 2.9 вошли в предложенный релиз?

Выложи плиз свой файлик, я проверю. По идее придумывалось и собиралось все, что можно и тестировалось. Можно в личку, если так проще.
Аватар пользователя Isais

Прикреплять здесь некуда, так что ссылка на Дропбокс: https://www.dropbox.com/s/j74awi24vigsvw2/04_Regexps_Search.zip?dl=0
Если ссылка окажется недоступной, скажите -- что-то Дроп глючит давно и по-свински.

Isais написал:
Прикреплять здесь некуда, так что ссылка на Дропбокс: https://www.dropbox.com/s/j74awi24vigsvw2/04_Regexps_Search.zip?dl=0
Если ссылка окажется недоступной, скажите -- что-то Дроп глючит давно и по-свински.

Спасибо, скачал, при беглом взгляде - по содержанию - это довольно старая версия этого же скрипта, новый существенно расширен.
Но после выходных поизучаю более внимательно, если что в моем не учтено, добавлю.

TaKir написал:
если что в моем не учтено, добавлю.
Еще не закончил проверять, но вот пара неучтенных комбинаций из моего набора для EmEditor:
Как под горкой под горой( торговал мужик золой.
Как под горкой под горой « торговал мужик золой .
Есть и другие, дойду до них, тогда тоже выложу.

GMAP написал:
Еще не закончил проверять, но вот пара неучтенных комбинаций из моего набора для EmEditor:
Как под горкой под горой( торговал мужик золой.
Как под горкой под горой « торговал мужик золой .
Есть и другие, дойду до них, тогда тоже выложу.

Перед запуском данного скрипта лучше обработать текст скриптами "Генеральная уборка", "Латиница в кириллице"
Тогда будет гораздо меньше лишних срабатываний.

Добавил эту рекомендацию в стартпост.

Но оторванную скобку и кавычку добавить в скрипт нет проблем, конечно.

Аватар пользователя alexej36

Прилипший дефис в конце строки в стихах не находит, а надо бы!

Прилипший дефис проверим! )

Коллеги, просьба набросать примеров типичных наиболее часто встречающихся сокращений, где используется точка, типа:

млн. рублей

тыс. человек

добавлю в скрипт, чтобы пропускал такие вещи.

т.д. и т.п. уже учтены

TaKir написал:
Прилипший дефис проверим! )

Коллеги, просьба набросать примеров типичных наиболее часто встречающихся сокращений, где используется точка, типа:

млн. рублей

тыс. человек

добавлю в скрипт, чтобы пропускал такие вещи.

т.д. и т.п. уже учтены

Уважаемый TaKir, примите во внимание, что сокращение млн по правилам записывается без точки (как и, например, сек -- секунда, т -- тонна) -- в отличие от тыс., где точка таки нужна.
http://new.gramota.ru/spravka/docs?layout=item&id=16_15

Аватар пользователя Isais

Александр Лагода написал:
TaKir написал:
Прилипший дефис проверим! )
Коллеги, просьба набросать примеров типичных наиболее часто встречающихся сокращений, где используется точка, типа:
млн. рублей
тыс. человек
добавлю в скрипт, чтобы пропускал такие вещи.
т.д. и т.п. уже учтены

Уважаемый TaKir, примите во внимание, что сокращение млн по правилам записывается без точки (как и, например, сек -- секунда, т -- тонна) -- в отличие от тыс., где точка таки нужна.
http://new.gramota.ru/spravka/docs?layout=item&id=16_15


+100500!
Также не не нужна точка в сокращениях млрд, трлн, км, га -- то есть таких, которые сокращаются "фигурно" -- выбросили кусок слова в одном месте, потом в другом, осталось пара-тройка букв из разных мест -- вот такие слова не требуют точек в конце.
А вообще по сокращениям и как они пишутся есть довольно-таки толстый словарь с убористым текстом... Всё в скрипт не переписать. :(

Isais написал:
Александр Лагода написал:
TaKir написал:
Прилипший дефис проверим! )
Коллеги, просьба набросать примеров типичных наиболее часто встречающихся сокращений, где используется точка, типа:
млн. рублей
тыс. человек
добавлю в скрипт, чтобы пропускал такие вещи.
т.д. и т.п. уже учтены

Уважаемый TaKir, примите во внимание, что сокращение млн по правилам записывается без точки (как и, например, сек -- секунда, т -- тонна) -- в отличие от тыс., где точка таки нужна.
http://new.gramota.ru/spravka/docs?layout=item&id=16_15


+100500!
Также не не нужна точка в сокращениях млрд, трлн, км, га -- то есть таких, которые сокращаются "фигурно" -- выбросили кусок слова в одном месте, потом в другом, осталось пара-тройка букв из разных мест -- вот такие слова не требуют точек в конце.
А вообще по сокращениям и как они пишутся есть довольно-таки толстый словарь с убористым текстом... Всё в скрипт не переписать. :(

Если в книге уже написано "млн. руб." или "млрд. человек" - будем удалять точки? Или оставляем как "написано пером"? Какая политика партии?
Если мне не изменяет мой склероз, то при оцифровке всегда шли от презумпции "неприкосновенности" написанного, кроме, возможно, явных очепяток.

Скрипту планируется указать просто пропускать такие сокращения с точкой, буде они встретятся.
Просто частенько бывает слишком много стандартных сокращений в книге, и хотелось бы, чтобы скрипт их пропускал.

Никаких исправлений в тексте скрипт не делает, если кто еще не в курсе, он всего лишь останавливается на подозрительных местах.

Из найденного на скорую руку (речь о наиболее распространенных сокращениях, весь словарь нам не нужен, конечно).

в.
г.
вв.
гг.
млн.
млрд.
трлн.
тыс.
сокр.
и т.д.
т.к.
т.е.
т.п.
т.о.
т.ч.
н. э.
чел.
экз.
руб.
коп.
долл.
др.
пр.
проч.
см.
ср.
англ.
фр.
нем.
исп.
лат.
прим.
перев.
авт.
ред.
рук.
мин.
сек.
стр.
мм.
кг.

Аватар пользователя alexej36

Цитата:
Первое предложение.-Второе предложение.

Можно ли научить скрипт такое находить?

alexej36 написал:
Цитата:
Первое предложение.-Второе предложение.

Можно ли научить скрипт такое находить?

Да, конечно, без проблем.
addRegExp("[\\.]-","","Найдено: неправильные дефисы-тире");
В новой версии будет включено в поиск.
X