Методика виокремлення ключових слів і словосполучень та побудови направлених зважених мереж термінів із застосуванням Part-of-Speech tagging
Ланде Д.В., Дмитренко О.О.

Інформаційні технології і безпека. Матеріали XХ Міжнародної науково-практичної конференції ІТБ-2020. - Київ: Інжиніринг. - C. 140-144. ISBN: 978-966-2344-77-6
У цій роботі запропонований новий метод виокремлення ключових слів і словосполучень з тематичних інформаційних потоків та новий метод встановлення напрямків зв.язків між вузлами у ненаправлених мережах термінів із застосуванням більш широкої обробки природної мови, що базується на розбитті на частини мови (Part-of-speech tagging). Представлено ідею встановлення вагових значень зв.язків між вузлами у направленій мережі термінів. Також представлена цілісна методика комп.ютерної обробки текстових корпусів та побудови направлених зважених мереж термінів (ключових слів та словосполучень), виокремлених за допомогою попереднього процесу класифікації слів за частинами мови та відповідним маркуванням . Part-of-Speech tagging, та подальшого статистичного зважування. Апробацію запропонованої методики було проведено на прикладі алегоричної повісті-казки .Маленький принц. (англ. .The Little Prince.) Антуана де Сент-Екзюпері. Застосовуючи запропонований метод було виокремлено ключові терміни та побудовано направлену зважену мережу зі слів та словосполучень, які відповідають окремим ключовим поняттям у досліджуваному творі.

Ключові слова: текстовий корпус, обробка природньої мови, Part-of-speech (PoS) tagging, термінологічна онтологія, мережа термінів.

© 2021, Oleh Dmytrenko
dmitrenko_o@ukr.net
This site was made on Tilda — a website builder that helps to create a website without any code
Create a website