Методика виділення текстових областей на зображенні відсканованого документа з використанням лінійної фільтрації

Автор(и)

  • Олеся Володимирівна Іщенко Одеський національний політехнічний університет, просп. Шевченка, 1,Одеса, Україна, 65044 https://orcid.org/0000-0002-7882-4718
  • Марина Вячеславівна Полякова Одеський національний політехнічний університет, просп. Шевченка, 1,Одеса, Україна, 65044 https://orcid.org/0000-0002-1597-8867
  • Олександр Геннадійович Нестерюк Одеський національний політехнічний університет, просп. Шевченка, 1,Одеса, Україна, 65044 https://orcid.org/0000-0002-0806-8259

DOI:

https://doi.org/10.15276/aait.03.2019.3

Ключові слова:

сегментація зображень, текстові області, відсканований документ, лінійна фільтрація, обробка зображень

Анотація

Запропоновано методику виділення текстових областей на зображенні відсканованого документа з фону.
Текстові області зображення мають приблизно однакові значення інтенсивності всередині цих областей. Тому використовується лінійна фільтрація і порогове перетворення зображення. Лінійна фільтрація дозволяє згладити значення інтенсивності пікселів всередині однорідних областей. При пороговому перетворенні використовується значення порога, яке дозволяє виділити однорідні області зображення, що становлять текстові фрагменти, з фону. Проведено дослідження вибору
порогового значення для виділення однорідних областей тексту, яке показало, що значення порога краще вибирати серед
інтенсивностей пікселів у підставі піку гістограми, який відповідає фону. Вибір порога запропоновано здійснювати за значенням другої похідної для гістограми зображення після лінійної фільтрації. Тому в якості порога вибирається значення
інтенсивності локального максимуму гістограми, який знаходиться ближче інших локальних максимумів до правого кінця
інтервалу інтенсивностей зображення. Для цього проводиться аналіз гістограми розподілу значень інтенсивності пікселів
зображення після лінійної фільтрації по рядках і по стовпцях на кожному кроці. Апробація запропонованої методики виділення текстових областей зображення проведена для сегментації текстових зображень відсканованих архівних газет з
бази даних документів MediaTeam університету Оулу (Фінляндія). Запропонована методика виділення текстових фрагментів з фону з використанням лінійної фільтрації та поро-гового перетворення дозволила підвищити якість виділення цих
областей у порівнянні з аналогічним методом за відсотком правильного розпізнавання областей тексту на 12%, що актуально для задачі сегментації зображень

Завантаження

Дані завантаження ще не доступні.

Біографії авторів

Олеся Володимирівна Іщенко, Одеський національний політехнічний університет, просп. Шевченка, 1,Одеса, Україна, 65044

старший викладач кафедри прикладної математики та інформаційних технологій інституту комп’ютерних систем

Марина Вячеславівна Полякова, Одеський національний політехнічний університет, просп. Шевченка, 1,Одеса, Україна, 65044

доктор техніч. наук, доцент кафедри прикладної математики та інформаційних технологій інституту комп’ютерних систем

Олександр Геннадійович Нестерюк, Одеський національний політехнічний університет, просп. Шевченка, 1,Одеса, Україна, 65044

канд. техніч. наук, доцент кафедри комп’ютерних систем інституту комп’ютерних систем

Опубліковано

2019-07-15

Як цитувати

[1]
Ishchenko A.V., Polyakova M.V., Nesteryuk A.G. “The technique of extraction text areas on scanned document image using linear filtration”. Applied Aspects of Information Technology. 2019; Vol. 2, No. 3: 206-215. DOI:https://doi.org/10.15276/aait.03.2019.3.

Статті цього автора (авторів), які найбільше читають