Ручная разметка


FineReader размечает сканированное изображение блоками трех видов текстовыми (выделяются рамочкой темно-зеленого цвета), табличными (синие и к тому же закрашенные) и графическими (красные). Соответственно программа и относится к каждому такому блоку: текст распознает, картинку не распознает - просто вставляет в документ (если это требуется и разрешено в опциях программы на странице Форматирование), а в таблице сперва ищет строки и столбцы, а потом уж распознает - по ячейкам. Внимательно рассмотрите разметку при достаточном увеличении. Если заметите неверную разметку, принимайте меры.У нас несколько блоков текста с нестандартным шрифтом, да к тому же вывороткой (светлый на темном), несколько налезающих друг на друга вставных иллюстраций, многоколонное расположение текста и рисунков и, что всегда вызывает трудности у распознавалок, - темный, неоднородный фон. FineReader добросовестно пытается понять, где тут фотография, где текст, а где просто мусор, всегда сопровождающий сканированные изображения, но, как видно из рисунка, не очень-то в этом деле преуспевает. Какие же принять меры? Границы блоков можно двигать мышью за верхние и боковые стороны и за узелки (причем таскать их можно и на панели крупного плана, и на панели изображений). Когда новые границы блока полностью перекрывают какой-то из старых блоков того же типа, тот за ненадобностью исчезает. Следите за тем, чтобы не было частичного перекрытия блоков: если текстовый или табличный блок налезает на графический, то часть рисунка может не попасть в выходной документ. Иной раз блок стоит настолько криво, что лучше его удалить и создать заново. Выберите строку Удалить блок в его контекстном меню или щелкните по нему и нажмите Del. Есть для этого и соответствующий инструмент на панели Изображение. При вопиющих ошибках разметки и сложной структуре макета страницы проще бывает удалить сразу все блоки клавиатурной комбинацией Ctrl-Del или командой Удалить блоки и текст в контекстном меню1, и разметить вручную всю страницу. Тем более что трудностей тут, ну, ровным счетом никаких. В нашем распоряжении будут следующие инструменты (слева на панели Изображение): Выделить текстовый блок, Выделить табличный блок и Выделить картинку. Просто выбираете тип блока и растягиваете рамочки нужной формы и в нужных местах. ... В контекстном меню каждого блока вы найдете подменю Тип блока, с помощью которого сможете, к примеру, объявить текстовый блок табличным, если программа не узнала таблицу. Там же найдете еще один тип блока - штрих-код2. Самая верхняя кнопка называется Выделить зону распознавания. Растягивается я просто рамочка, а тип ее вы сможете определить потом, через подменю Тип блока. Если этого не сделать, программа будет пытаться сама расставить блоки в этой зоне. Этим инструментом можно пользоваться, например, когда у вас отсканирована книжная страница, но на изображение попала и часть противоположной страницы, а заодно и корешок, который получился в виде неясных серых полос и пятен. Удалите все блоки (Ctrl-Del) и выделите правильную зону распознавания - одну только нужную страницу, и программе станет намного легче, а результат окажется намного симпатичнее. Или вам не нужна вся журнальная страница, а только одна статья с фотографиями. Выделите только ее, и вам не придется потом вручную выкидывать все лишнее. Если в тексте встречаются фрагменты негативного текста (выворотка), лучше выделять их в отдельные блоки. То же касается текста, набранного моноширинным шрифтом, а также формул. Когда на распознаваемой странице со сложной версткой в текстовый блок врезается картинка или другой текстовый блок, обойтись прямоугольными блоками нам уже не удастся, потребуется блок более сложной формы. Поможет нам в этом деле пара инструментов: Добавить часть к блоку и Удалить часть блока. Грв В первом случае нам будет позволено растянуть прямоугольную рамочку из данного блока наружу или, наоборот, - снаружи вовнутрь. Новый прямоугольник добавится к исходному прямоугольнику, от чего блок станет уже ступенчатым. Можно сделать это несколько раз, создав блок довольно причудливой формы. Второй инструмент работает противоположным образом: нарисованный с его помощью прямоугольник вычитается из данного блока. На все операции с блоками распространяется действие команд отмены (Ctrl-Z) и повтора (Ctrl-Y). При распознавании таблиц программа может иной раз неверно провести границы строк или столбцов. Первая кнопка из этой пары позволит провести и вертикальную линию, вторая - горизонтальную. FineReader нарисует новую разделительную линию, которая будет ездить по экрану вслед за курсором. Где щелкнете мышкой, там линия и установится. - Есть еще третья кнопка, которая позволит, наоборот, убрать лишнюю линию ю в табличном блоке. Курсор примет форму крестика. По какой линии этим крестиком щелкнете, та и пропадет. Содержимое столбцов или строк при этом склеится по шву. ... В контекстном меню блока есть команда Очистить блок от мусора, по которой из рисунка убираются случайные точки и черточки, частенько возникающие при сканировании. Можно попросить программу сразу же очищать изображение от мусора, пометив соответствующий квадратик на странице Сервис > Опции > Обработка изображений. Это позволит избежать некоторых ошибок в распознавании. Но когда работаете с текстами, которые набраны легкими тонкими шрифтами (например, такими или даже такими), вы рискуете при очистке потерять точки, запятые и другие полезные части текста. Это же касается страниц, напечатанных на машинке с бледной копиркой или на принтере с подсевшим картриджем. Почистить рисунок можно и вручную - кнопкой-ластиком: растянули рамочку, и все, что попало внутрь, исчезает. Не только мусор, но и текст — ластику все равно.


Интересные статьи



Реклама