Аналіз та вибір методів виявлення ключових слів у текстах: огляд існуючих підходів і практичне застосування

Тарас Володимирович Діденко; Олексій Борисович Кунгурцев

doi:10.15276/ict.02.2025.48

Pdf

Опубліковано: 2025-11-05

DOI: https://doi.org/10.15276/ict.02.2025.48

Ключові слова:

обробка природної мови, TF-IDF, ключові слова, RAKE, TextRank, BERT, KeyBERT, embeddings, spaCy, ConceptNet

Діденко Тарас Володимирович

Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

Кунгурцев Олексій Борисович

Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

Анотація

У роботі розглядається проблема автоматичного виявлення ключових слів у текстах як важливого етапу обробки природної мови (NLP). Актуальність теми обумовлена стрімким зростанням обсягів текстових даних, що потребують систематизації та аналізу. Проаналізовано основні підходи до виділення ключових слів: класичні статистичні методи (TF-IDF, RAKE, TextRank), сучасні семантичні алгоритми (BERT, KeyBERT, embeddings із кластеризацією), а також сторонні інструменти та API (ConceptNet, spaCy, HuggingFace Transformers). Показано, що статистичні методи відзначаються простотою реалізації, однак поступаються сучасним моделям за точністю, оскільки не враховують контекст і семантику. Семантичні підходи забезпечують вищу якість результатів, проте є більш ресурсоємними. Особливу увагу приділено практичним експериментам з українськими текстами, які попередньо перекладалися англійською для використання англомовних моделей. Такий підхід дозволив отримати кращі результати, оскільки більшість бібліотек оптимізовані саме для англомовних корпусів. Однак спроби зворотного перекладу виявили проблеми зі збереженням змісту. Експериментальні дослідження показали, що KeyBERT продемонстрував найвищу ефективність серед розглянутих методів: він поєднує релевантність результатів, швидкодію та простоту інтеграції, що робить його придатним як для наукових досліджень, так і для прикладних інформаційних систем. У висновках обґрунтовується доцільність використання KeyBERT у поєднанні з англомовними текстами як оптимального рішення для задачі виявлення ключових слів. Також окреслено перспективні напрями розвитку: підтримка мультимовних корпусів, адаптація під доменні тексти та оптимізація моделей для роботи з великими масивами даних.

Downloads

Download data is not yet available.

Номер

Том 2 № 2 (2025): Інформатика. Культура. Техніка

Розділ

Статті

Біографії авторів

автор Діденко Тарас Володимирович, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

Магістр каф. програмної інженерії

автор Кунгурцев Олексій Борисович, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

Канд. техніч. наук, професор каф. Програмної інженерії

Як цитувати

Аналіз та вибір методів виявлення ключових слів у текстах: огляд існуючих підходів і практичне застосування. (2025). Інформатика. Культура. Техніка, 2(2), 315–319. https://doi.org/10.15276/ict.02.2025.48

Аналіз та вибір методів виявлення ключових слів у текстах: огляд існуючих підходів і практичне застосування

Анотація

Downloads

Номер

Розділ

Біографії авторів

автор Діденко Тарас Володимирович, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

автор Кунгурцев Олексій Борисович, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

Як цитувати

Посилання

Меню

Article Sidebar

Main Article Content

Анотація

Downloads

Article Details

Номер

Розділ

Біографії авторів

автор Діденко Тарас Володимирович, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

автор Кунгурцев Олексій Борисович, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

Як цитувати

Посилання

Меню