Наука технології інновації №1(21)-2022, 29-37 c

 PDF

http://doi.org/10.35668/2520-6524-2022-1-05

Анда Баклане — магістр філософії, дослідниця та керівниця проєктів цифрових досліджень у Департаменті розвитку цифрових послуг Латвійської національної бібліотеки, Латвія, Рига, вул. Мукусалас, 3, LV-1423; +(371)67806100; anda.baklane@lnb.lv; ORCID: 0000-0002-0301-2504

Валдіс Саулеспуренс — магістр комп’ютерних наук, дослідник та розробник цифрових сервісів Технологічного відділу Латвійської національної бібліотеки, Латвія, Рига, вул. Мукусалас, 3, LV-1423; +(371)67806100; valdis.saulespurens@lnb.lv; ORCID: 0000-0002-9665-0125

ЗАСТОСУВАННЯ ЛАТЕНТНОГО РОЗПОДІЛУ ДІРІХЛЕ ДЛЯ АНАЛІЗУ ЛАТВІЙСЬКИХ ІСТОРИЧНИХ ГАЗЕТ: ПРИКЛАД ОСКАРА КАЛПАКА

Резюме. Упродовж останніх 20-ти років тематичне моделювання і, зокрема, застосування моделі LDA (прихованого розподілу Діріхле) стало одним із найчастіше використовуваних методів дослідницького аналізу та пошуку інформації з текстових джерел. Хоча тематичне моделювання використовувалося для досліджень у великій кількості проєктів, ця технологія ще не стала частиною загальних стандартних функцій цифрових історичних колекцій, що куруються бібліотеками, архівами та іншими установами пам’яті. Окрім того, чимало широко поширених і добре вивчених методів обробки природної мови, включаючи тематичне моделювання, недостатньо застосовувалися для роботи з джерелами нечисленних або малоресурсних мов, включаючи латиську. У статті представлені результати першого тематичного дослідження, у якому методологія LDA використовувалася для аналізу набору даних історичних газет латиською мовою. Для проведення аналізу використовується корпус газети «Латвійський солдат», на прикладі виконання тем, пов’язаних із першим командувачем Латвійської армії Оскаром Калпаксом. У дослідженнях цифрових гуманітарних наук результати тематичного моделювання використовувалися й інтерпретувалися декількома різними способами залежно від типу та жанру тексту, наприклад, для отримання семантичних зв’язних, які заслуговують на довіру для списків ключових слів або для отримання лексичних ознак, які не допомагають тематичному аналізу, але замість цього дають інші відомості про використання мови. Автори статті пропонують додатки, які могли б бути найбільш підходящими для аналізу історичних газет у великих цифрових колекціях установ пам’яті, а також розповідають про проблеми, пов’язані з роботою з текстовими джерелами, що містять помилки оптичного розпізнавання, проблематичну сегментацію статей та інших несучасних даних.

Ключові слова: моделювання тем, латентне розподілення Діріхле, когерентність тем, історичні газети, обробка природної мови для латиської мови, цифрові гуманітарні науки, Оскарс Калпакс.