Формалізація знань та побудова термінологічних онтологій у правовій галузі
Ланде Д.В., Дмитренко О.О.

Парламентський контроль в умовах децентралізації державної влади та цифрової трансформації в Україні: стан і проблеми : матеріали Першої всеукраїнської науково-практичної конференції, м. Київ, 30 березня 2021 р. - Київ, 2021. - C. 35-39.
У цій роботі для побудови термінологічної онтології, придатної для автоматизованої обробки, застосовується лінгвомережева модель представлення текстових даних. Одним із видів такої мережевої моделі є мережа, що побудована із ключових слів та словосполучень (або просто - мережа термінів). В ній вузли відповідають окремим ключовим поняттям предметної галузі, а ребра - семантико-семантичним зв.язкам між ними.
Для виокремлення ключових термінів застосовується комп'ютерна обробка природномовних текстів, що включає автоматичну сегментацію на окремі речення, розбиття на токени та розмічування частин мови й присвоєння тегів кожному слову (Part-of-Speech tagging).
Використовуючи шаблони ключових слів та словосполучень формується послідовність термінів. Далі здійснюється видалення одиничних стоп-слів (окремих артиклів, прийменників, сполучників, деяких дієслів, прислівників та займенників), які не несуть ніякого інформативного навантаження.
На наступному етапі для кожного сформованого терміна у порядку його зустрічання у тексті формується так званий кортеж. Кожен елемент кортежу складається з трьох значень: перше - термін (слово або словосполучення, що отримане за одним із шаблонів); наступне - тег, який присвоюється слову в залежності від його приналежності до певної частини мови; останній елемент такого набору - числове значення GTF (глобальна частота терміна, що використовується для статистичного зважування слів та словосполучень, що входять у сформовану на попередньому етапі послідовність). Важливо зазначити, що GTF обчислюється з урахуванням двох попередніх значень кортежу - терміна та частини мови, до якої він належить. Кількість таких однакових кортежів у всьому тексті, що нормована на загальну кількість сформованих термінів, і визначає значення третього елемента. Для встановлення ненаправлених зв.язків між ключовими термінами в межах кожного окремого речення застосовується алгоритм графа горизонтальної видимості для часових рядів (Horizontal Visibility Graph - HVG). Сформована на попередньому етапі послідовність числових значень GTF, які відповідають окремим кортежам, є тим часовим рядом, який завдяки алгоритму HVG трансформується у ненаправлену мережу.
Для встановлення напрямків зв.язків враховувались емпіричні правила. Після об'єднання однакових вузлів сумарна кількість однаково-направлених зв.язків між цими вузлами визначала вагове значення зв.язку. Для апробації представленої у цій роботі методики побудови мережі термінів було використано вільнодоступний правовий документ "Convention on the Rights of the Child", поданий англійською мовою.

© 2021, Oleh Dmytrenko
dmitrenko_o@ukr.net
This site was made on Tilda — a website builder that helps to create a website without any code
Create a website