Аналіз можливостей великих та малих мовних моделей (LLM/SLM) для оптимізації процесів прийняття рішень у системі радіозв’язку

Сергій Олексійович Дупелич; Володимир Васильович Дзюбенко

doi:10.26642/ten-2025-2(96)-136-146

Автор(и)

Сергій Олексійович Дупелич Житомирський військовий інститут імені С.П. Корольова, Україна
Володимир Васильович Дзюбенко Житомирський військовий інститут імені С.П. Корольова, Україна https://orcid.org/0009-0002-4548-8903

DOI:

https://doi.org/10.26642/ten-2025-2(96)-136-146

Ключові слова:

великі мовні моделі, малі мовні моделі, LLM, SLM, Phi-3-mini, системи підтримки прийняття рішень, радіозв’язок

Анотація

Сучасна система радіозв’язку функціонує в умовах екстремальної складності, що характеризуються динамічно мінливою обстановкою, високою щільністю інформаційних потоків та активною протидією противника. Ефективність управління в таких умовах визначається здатністю не лише обробляти значні масиви даних, але й приймати оптимальні рішення в режимі реального часу. Ключовими критеріями успішності є своєчасність реакції, достовірність аналізу та прихованість дій. Інтенсивний розвиток великих мовних моделей (англ. – Large Language Models (LLM)) та малих мовних моделей (англ. – Small Language Models (SLM)), що демонструють унікальні здібності до семантичної інтерпретації, логічного мислення та генерації рекомендацій, відкриває принципово нові горизонти для автоматизації когнітивних завдань та створення інтелектуальних систем підтримки прийняття рішень (СППР) нового покоління. Ця робота є першим комплексним узагальненням, що системно розглядає застосування мовних моделей штучного інтелекту саме в цьому специфічному та критично важливому контексті. У роботі проведено компаративний аналіз ключових архітектур мовних моделей, що домінують на ринку, висвітлюючи дихотомію між пропрієтарними системами (сімейства GPT від OpenAI, Gemini від Google, Claude від Anthropic) та моделями з відкритим вихідним кодом (Llama від Meta, Mistral від Mistral AI, Phi-3 від Microsoft). Обґрунтовано, що для завдань, які вимагають гнучкості, можливості локального розгортання та швидкого прототипування в умовах високої прихованості, особливий інтерес становлять компактні мовні моделі (SLM). Зокрема, детально розглянуто архітектуру Microsoft Phi-3-mini, чия висока продуктивність при малому розмірі (3,8 мільярда параметрів) досягається завдяки інноваційному підходу до навчання на високоякісних синтетичних даних, що ставить якість навчального масиву вище за його обсяг.

Посилання

OpenAI, GPT-4o, [Online], available at: https://openai.com/index/hello-gpt-4o/

GPT-4, [Online], available at: https://arxiv.org/abs/2303.08774

«Language Models are Few-Shot Learners», GPT-3, [Online], available at: https://arxiv.org/abs/2005.14165

Gemini 1.5 Pro Google, [Online], available at: https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/

Gemini 1.5, [Online], available at: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

Gemini 1.0, [Online], available at: https://arxiv.org/abs/2312.11805

Anthropic, [Online], available at: https://www.anthropic.com/news/claude-3-family

Cohere, [Online], available at: https://txt.cohere.com/blog/

Command R+, [Online], available at: https://txt.cohere.com/command-r-plus-rag-optimized-model/

[Online], available at: https://docs.cohere.com/

Vaswani, A., Gomez, A. et al., «Attention Is All You Need», [Online], available at: https://arxiv.org/abs/1706.03762

Llama 3 Meta AI, [Online], available at: https://ai.meta.com/blog/meta-llama-3/

Llama 2, [Online], available at: https://arxiv.org/abs/2307.09288

Llama Meta AI, [Online], available at: https://ai.meta.com/llama/

«Mixtral в блозі компанії», [Online], available at: https://mistral.ai/news/mixtral-of-experts/

Mixtral 8x7B, [Online], available at: https://arxiv.org/abs/2401.04088

«Detalnyi opys modeli, yii perevah ta rezultativ u benchmarkakh», Falcon 180B, [Online], available at: https://www.tii.ae/news/uaes-tii-releases-falcon-180b-advanced-open-source-ai-model

Hugging Face, [Online], available at: https://huggingface.co/tiiuae/falcon-180B

RefinedWeb, [Online], available at: https://huggingface.co/datasets/tiiuae/falcon-refinedweb

«BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding», [Online], available at: https://arxiv.org/abs/1810.04805

Microsoft Phi-3, [Online], available at: https://azure.microsoft.com/en-us/blog/introducing-phi-3-a-new-family-of-open-ai-models-from-microsoft/

Hugging Face, [Online], available at: https://huggingface.co/microsoft/Phi-3-mini-4k-instruct

«TinyStories: How Small Can Language Models Be and Still Speak Coherent English?», [Online], available at: [Online], available at: https://arxiv.org/abs/2305.07759

Vaswani, A. et al. (2017), «Attention Is All You Needhttps», [Online], available at: https://arxiv.org/abs/1706.03762

Microsoft (2024), «Phi-3 Technical Report», [Online], available at: https://arxiv.org/abs/2404.14219

Hugging Face, [Online], available at: https://huggingface.co/microsoft/Phi-3-mini-4k-instruct

«TinyStories: How Small Can Language Models Be and Still Speak Coherent English?», [Online], available at: https://arxiv.org/abs/2305.07759

Vaswani A. et al. (2017), «Attention Is All You Need», [Online], available at: https://arxiv.org/abs/1706.03762

Microsoft (2024), Phi-3 Technical Report, [Online], available at: https://arxiv.org/abs/2404.14219

Alammar, J., «The Illustrated Transformer», [Online], available at: http://jalammar.github.io/illustrated-transformer/

Vaswani, A., Shazeer, N., Parmar, N. et al. (2017), «Attention is All you Need Part of Advances in Neural Information Processing Systems 30», NIPS 2017.