Методика виділення текстових областей на зображенні відсканованого документа з використанням лінійної фільтрації
DOI:
https://doi.org/10.15276/aait.03.2019.3Ключові слова:
сегментація зображень, текстові області, відсканований документ, лінійна фільтрація, обробка зображеньАнотація
Запропоновано методику виділення текстових областей на зображенні відсканованого документа з фону. Текстові об- ласті зображення мають приблизно однакові значення інтенсивності всередині цих областей. Тому використовується ліній- на фільтрація і порогове перетворення зображення. Лінійна фільтрація дозволяє згладити значення інтенсивності пікселів всередині однорідних областей. При пороговому перетворенні використовується значення порога, яке дозволяє виділити однорідні області зображення, що становлять текстові фрагменти, з фону. Проведено дослідження вибору порогового зна- чення для виділення однорідних областей тексту, яке показало, що значення порога краще вибирати серед інтенсивностей пікселів у підставі піку гістограми, який відповідає фону. Вибір порога запропоновано здійснювати за значенням другої похідної для гістограми зображення після лінійної фільтрації. Тому в якості порога вибирається значення інтенсивності локального максимуму гістограми, який знаходиться ближче інших локальних максимумів до правого кінця інтервалу інте- нсивностей зображення. Для цього проводиться аналіз гістограми розподілу значень інтенсивності пікселів зображення після лінійної фільтрації по рядках і по стовпцях на кожному кроці. Апробація запропонованої методики виділення тексто- вих областей зображення проведена для сегментації текстових зображень відсканованих архівних газет з бази даних доку- ментів MediaTeam університету Оулу (Фінляндія). Запропонована методика виділення текстових фрагментів з фону з вико- ристанням лінійної фільтрації та поро-гового перетворення дозволила підвищити якість виділення цих областей у порівнян- ні з аналогічним методом за відсотком правильного розпізнавання областей тексту на 12%, що актуально для задачі сегмен- тації зображень.