Аналіз та вибір методів виявлення ключових слів у текстах: огляд існуючих підходів і практичне застосування

Main Article Content

Діденко Тарас Володимирович
Кунгурцев Олексій Борисович

Анотація

У роботі розглядається проблема автоматичного виявлення ключових слів у текстах як важливого етапу обробки природної мови (NLP). Актуальність теми обумовлена стрімким зростанням обсягів текстових даних, що потребують систематизації та аналізу. Проаналізовано основні підходи до виділення ключових слів: класичні статистичні методи (TF-IDF, RAKE, TextRank), сучасні семантичні алгоритми (BERT, KeyBERT, embeddings із кластеризацією), а також сторонні інструменти та API (ConceptNet, spaCy, HuggingFace Transformers). Показано, що статистичні методи відзначаються простотою реалізації, однак поступаються сучасним моделям за точністю, оскільки не враховують контекст і семантику. Семантичні підходи забезпечують вищу якість результатів, проте є більш ресурсоємними. Особливу увагу приділено практичним експериментам з українськими текстами, які попередньо перекладалися англійською для використання англомовних моделей. Такий підхід дозволив отримати кращі результати, оскільки більшість бібліотек оптимізовані саме для англомовних корпусів. Однак спроби зворотного перекладу виявили проблеми зі збереженням змісту. Експериментальні дослідження показали, що KeyBERT продемонстрував найвищу ефективність серед розглянутих методів: він поєднує релевантність результатів, швидкодію та простоту інтеграції, що робить його придатним як для наукових досліджень, так і для прикладних інформаційних систем. У висновках обґрунтовується доцільність використання KeyBERT у поєднанні з англомовними текстами як оптимального рішення для задачі виявлення ключових слів. Також окреслено перспективні напрями розвитку: підтримка мультимовних корпусів, адаптація під доменні тексти та оптимізація моделей для роботи з великими масивами даних.

Downloads

Download data is not yet available.

Article Details

Розділ

Статті

Біографії авторів

автор Діденко Тарас Володимирович, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

Магістр каф. програмної інженерії

автор Кунгурцев Олексій Борисович, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна


Канд. техніч. наук, професор каф. Програмної інженерії

Як цитувати

Аналіз та вибір методів виявлення ключових слів у текстах: огляд існуючих підходів і практичне застосування. (2025). Інформатика. Культура. Техніка, 2, 315–319. https://doi.org/10.15276/ict.02.2025.48

Посилання