|
||||
|
Б. Склейка разорванных строк абзацаДанный инструмент полезен для обработки многих текстов из Интернет-Библиотек, например, Мошкова, а также – некоторых html-файлов, где есть масса разрывов строк ‹BR›. Инструмент ищет признак (идентификатор) нового абзаца по определенным признакам (режимы работы), и все отдельные строки (абзацы), которые оказываются между этими абзацами-маркерами воспринимаются, как части одного разорванного абзаца и склеиваются воедино. Не зависимо от режима Склейки, Инструмент автоматически удаляет все мягкие переносы и пробелы в конце абзацев. Иначе результат склейки будет неверным. Рассмотрим режимы работы инструмента – идентификаторы нового абзаца, маркеры. Б.1. Режимы склейки (по идентификатору нового абзаца) Пробелы в начале абзаца Часто «работаешь» с книгами, загруженными из сети, которые после OCR сохранялись, как простой текст. Красная строка «отбивалась», как несколько пробелов, а перевод строки сохранялся как окончание абзаца. Т. е. все строки каждого абзаца сохранились, как отдельный абзац. Править руками такую книгу удовольствия мало… Инструмент позволяет собрать такие строки в «нормальные» абзацы. При этом идентификатором «нового» абзаца является наличие в начале строки одного или нескольких пробелов. Пример. Есть такой текст (для наглядности показаны и непечатаемые символы): После обработки Инструментом получаем следующее: Такому тексту для наглядности абзацев осталось только задать отступ 1-й строки каждого абзаца, и все! Символы.!?…»”:; в конце абзаца» Не менее часто встречаются книги, скаченные из сети, у которых нет Красной строки, обозначенной пробелами, а перевод строки сохранялся как окончание абзаца. Т. е. все строки каждого абзаца сохранились, как отдельный абзац. Этот вариант еще труднее править руками. Корректор позволяет собрать такие строки в «нормальные» абзацы. При этом идентификатором завершения абзаца является наличие в его конце вышеназванные символы. Пример. Есть такой текст (для наглядности показаны и непечатаемые символы): После обработки Инструментом Склейки получаем следующее: Не во всех случаях этот 2-й режим все корректно определит (Названия заголовков, как правило, не имеют точек в конце абзаца). Но, тем не менее, это лучше, чем ничего. “Пустой” абзац или одиночный разрыв строки Еще один вариант распространенных в сети текстов – строки одного параграфа разорваны абзацем, а сами параграфы отделены друг от друга одним или несколькими «пустыми» абзацами. Такие тексты получаются при копировании текста из многих pdf- журналов. При выборе данного режима обработки, программа ищет блок текста (как правило разорванные строки одного абзаца) по идентификаторам – «пустой» абзац (одиночный разрыв строки ‹BR›). Найденное склеивается в один абзац. Например, есть текст: После обработки Инструментом Склейки получаем следующее: Иногда некоторые абзацы не отделены от других пустым абзацем, и являются самостоятельными абзацами, не разорванными символом абзаца. К сожалению, они склеются с вышестоящими абзацами. Чтобы этого не произошло, надо просмотреть весь текст, и перед «целыми», неразорванными абзацами вставить пустой абзац, если его нет. Тогда Инструмент Склейки корректно обработает текст и склеит нужные абзацы в один. Так, что лучше немного потратить время на просмотр текста и вставку пустых абзацев в нужные места, если их там нет, нежели часами вручную склеивать строки в абзацы! Б.2. Обработка разрывов дефисных слов и переносов В тексте могут встречаться разрывы на дефисных словах (кое-кто, кого-то и т. д.), а так же на переносах слов. Инструмент Склейки абзацев обрабатывает такие случаи разрывов, исходя из 2-х вариантов: 1. Удаление только разрыва абзаца(¶) и строки(BR); перенос (-) не удаляется 2. Удаление и разрыва переноса(-) и абзаца(¶) и строки(BR) По сути, эта та же обработка разрывов, что и в Корректоре Текста (подробнее см. здесь). Инструмент будет обрабатывать такие разрывы в любом случае, иначе он не сможет корректно склеить все строки, принадлежащие к одному абзацу. Б.3. Пост-обработка После склейки разорванных абзаце в тексте могут остаться множественные пробелы и табуляции, а также пробелы в начале абзаца. При желании вы можете включить опции для их удаления. Удалении пробелов в конце абзаца, если они есть, происходит автоматически. Б.4. Файл настроек инструмента Склейки разорванных абзацев Настройка формы Склейки разорванных абзацев сохраняется в файл corrector.txt, который помещается в жестко заданную папку config пакета OpenOffice.org, откуда и загружается. Для Unix-подобных систем – это папка /home/XXX/.openoffice.org/3/user/config/OOoFBTools. Для Windows – это папка C: \Documents and Settings\XXX\Application Data\OpenOffice.org\3\user\config\OOoFBTools, где XXX – ваш логин (имя пользователя). Файл создается автоматически и все изменения в диалоге заносятся в него автоматически. |
|
||
Главная | В избранное | Наш E-MAIL | Добавить материал | Нашёл ошибку | Другие сайты | Наверх |
||||
|