RD-GST: онлайн метод побудови розподілених узагальнених суфіксних дерев

Автор(и)

  • Ян Станiславович Садовий Державний університет «Житомирська політехніка», Україна https://orcid.org/0000-0003-0387-6772
  • Володимир Володимирович Воротнiков Державний університет «Житомирська політехніка», Україна https://orcid.org/0000-0001-8584-3901

DOI:

https://doi.org/10.26642/ten-2026-1(97)-264-270

Ключові слова:

узагальнене суфiксне дерево, розподiленi обчислення, потоковi данi, структури даних, текстовий пошук

Анотація

Узагальнені суфіксні дерева (УСД) є фундаментальними структурами даних для точного пошуку підрядків із лінійною часовою складністю  відносно довжини запиту , незалежно від розміру індексованого корпусу. Завдяки цій властивості УСД широко застосовуються в аналізі геномних послідовностей та індексуванні великих текстових масивів. Попри це, переважна більшість розподілених реалізацій УСД є офлайн-орієнтованими: вони будують індекс для статичного набору рядків, а надходження нових даних вимагає повної або істотної реконструкції структури. Це унеможливлює їх застосування в аналітичних платформах із безперервними потоками даних, що потребують одночасно високої швидкості та точності пошуку. Метою роботи є розроблення методу побудови розподіленого узагальненого суфіксного дерева, придатного для інкрементальної обробки потокових даних у кластерному середовищі без повної перебудови індексу при надходженні нових рядків. Запропоновано метод RD-GST, який поєднує інкрементальну стратегію конструювання суфіксного дерева з хеш-орієнтованою схемою розподілу рядків між вузлами обчислювального кластера. Метод реалізовано в архітектурі «координатор – робочі вузли» у контейнеризованому середовищі на базі Docker та AWS ECS. Принцип локальності оброблення мінімізує обсяг міжвузлових комунікацій і забезпечує інкрементальне оновлення індексу без повної реконструкції. Для оцінювання ефективності проведено порівняльний експеримент із методом DGST на підвибірках корпусу DNS-імен обсягом 100–600 млн символів за однакових обчислювальних ресурсів. RD-GST забезпечує прискорення у 3,2–5,1 разу та пропускну здатність 5,1–5,5 млн символів/с проти 0,9–1,7 млн символів/с для DGST. Перевага у швидкодії супроводжується інтенсивнішим споживанням оперативної пам’яті, що потребує пропорційного нарощування ресурсів зі збільшенням обсягу корпусу. Доведено практичну ефективність онлайн-підходу для потокової обробки текстових корпусів у реальному часі. Усі результати відтворювані на основі відкритих програмних реалізацій за узгоджених експериментальних умов.

Посилання

Ukkonen, E. (1995), «On-line construction of suffix trees», Algorithmica, Vol. 14, No. 3, pp. 249–260, doi: 10.1007/BF01206331.

McCreight, E.M. (1976), «A space-economical suffix tree construction algorithm», Journal of the ACM, Vol. 23, No. 2, pp. 262–272, doi: 10.1145/321941.321946.

Mansour, E. et al. (2011), «ERA: efficient serial and parallel suffix tree construction for very long strings», Proceedings of the VLDB Endowment, Vol. 5, No. 1, pp. 49–60, doi: 10.14778/2047485.2047490.

Zhu, G. et al. (2019), «DGST: efficient and scalable suffix tree construction on distributed data-parallel platforms», Parallel Computing, Vol. 87, pp. 87–102, doi: 10.1016/j.parco.2019.06.002.

Sadovyi, I. and Vorotnikov, V. (2025), «The study of optimization of the segmentation process for building distributed generalized suffix trees», Journal of Theoretical and Applied Information Technology, Vol. 103, No. 9, [Online], available at: https://jatit.org/volumes/Vol103No9/5Vol103No9.pdf

Haag, M. et al. (2025), «Fast and lightweight distributed suffix array construction», in 33rd Annual European Symposium on Algorithms (ESA 2025). Series. Leibniz International Proceedings in Informatics (LIPIcs), Vol. 351, pp. 47:1–47:18, doi: 10.4230/LIPIcs.ESA.2025.47.

Hlybovets, A. and Didenko, V. (2023), «Constructing generalized suffix trees on distributed parallel platforms», Cybernetics and Systems Analysis, Vol. 59, No. 1, pp. 49–60, doi: 10.1007/s10559-023-00541-x.

Takagi, T. et al. (2020), «Fully-online suffix tree and directed acyclic word graph construction for multiple texts», Algorithmica, Vol. 82, doi: 10.1007/s00453-019-00646-w.

Hendrian, D. et al. (2024), «Linear time online algorithms for constructing linear-size suffix trie», Theoretical Computer Science, Vol. 1015, doi: 10.1016/j.tcs.2024.114765.

Marchese, A. and Tomarchio, O. (2025), «Enhancing the Kubernetes platform with a load-aware orchestration strategy», SN Computer Science, Vol. 6, No. 3, 224 p., doi: 10.1007/s42979-025-03712-z.

Domains Project, «Domains Project: processing petabytes of data», [Online], available at: https://domainsproject.org/

PasaLab, «DGST» [Source code], GitHub, [Online], available at: https://github.com/PasaLab/DGST

GitHub: iansadovy/DGST, [Online], available at: https://github.com/iansadovy/DGST

##submission.downloads##

Опубліковано

2026-02-12

Як цитувати

Садовий, Я. С., & Воротнiков В. В. (2026). RD-GST: онлайн метод побудови розподілених узагальнених суфіксних дерев. Технічна інженерія, (1(97), 264–270. https://doi.org/10.26642/ten-2026-1(97)-264-270

Номер

Розділ

ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ