Методика виділення текстових областей на зображенні відсканованого документа з використанням лінійної фільтрації
DOI:
https://doi.org/10.15276/aait.03.2019.3Ключові слова:
сегментація зображень, текстові області, відсканований документ, лінійна фільтрація, обробка зображеньАнотація
Запропоновано методику виділення текстових областей на зображенні відсканованого документа з фону.
Текстові області зображення мають приблизно однакові значення інтенсивності всередині цих областей. Тому використовується лінійна фільтрація і порогове перетворення зображення. Лінійна фільтрація дозволяє згладити значення інтенсивності пікселів всередині однорідних областей. При пороговому перетворенні використовується значення порога, яке дозволяє виділити однорідні області зображення, що становлять текстові фрагменти, з фону. Проведено дослідження вибору
порогового значення для виділення однорідних областей тексту, яке показало, що значення порога краще вибирати серед
інтенсивностей пікселів у підставі піку гістограми, який відповідає фону. Вибір порога запропоновано здійснювати за значенням другої похідної для гістограми зображення після лінійної фільтрації. Тому в якості порога вибирається значення
інтенсивності локального максимуму гістограми, який знаходиться ближче інших локальних максимумів до правого кінця
інтервалу інтенсивностей зображення. Для цього проводиться аналіз гістограми розподілу значень інтенсивності пікселів
зображення після лінійної фільтрації по рядках і по стовпцях на кожному кроці. Апробація запропонованої методики виділення текстових областей зображення проведена для сегментації текстових зображень відсканованих архівних газет з
бази даних документів MediaTeam університету Оулу (Фінляндія). Запропонована методика виділення текстових фрагментів з фону з використанням лінійної фільтрації та поро-гового перетворення дозволила підвищити якість виділення цих
областей у порівнянні з аналогічним методом за відсотком правильного розпізнавання областей тексту на 12%, що актуально для задачі сегментації зображень