Аналіз можливостей великих та малих мовних моделей (LLM/SLM) для оптимізації процесів прийняття рішень у системі радіозв’язку
DOI:
https://doi.org/10.26642/ten-2025-2(96)-136-146Ключові слова:
великі мовні моделі, малі мовні моделі, LLM, SLM, Phi-3-mini, системи підтримки прийняття рішень, радіозв’язокАнотація
Сучасна система радіозв’язку функціонує в умовах екстремальної складності, що характеризуються динамічно мінливою обстановкою, високою щільністю інформаційних потоків та активною протидією противника. Ефективність управління в таких умовах визначається здатністю не лише обробляти значні масиви даних, але й приймати оптимальні рішення в режимі реального часу. Ключовими критеріями успішності є своєчасність реакції, достовірність аналізу та прихованість дій. Інтенсивний розвиток великих мовних моделей (англ. – Large Language Models (LLM)) та малих мовних моделей (англ. – Small Language Models (SLM)), що демонструють унікальні здібності до семантичної інтерпретації, логічного мислення та генерації рекомендацій, відкриває принципово нові горизонти для автоматизації когнітивних завдань та створення інтелектуальних систем підтримки прийняття рішень (СППР) нового покоління. Ця робота є першим комплексним узагальненням, що системно розглядає застосування мовних моделей штучного інтелекту саме в цьому специфічному та критично важливому контексті. У роботі проведено компаративний аналіз ключових архітектур мовних моделей, що домінують на ринку, висвітлюючи дихотомію між пропрієтарними системами (сімейства GPT від OpenAI, Gemini від Google, Claude від Anthropic) та моделями з відкритим вихідним кодом (Llama від Meta, Mistral від Mistral AI, Phi-3 від Microsoft). Обґрунтовано, що для завдань, які вимагають гнучкості, можливості локального розгортання та швидкого прототипування в умовах високої прихованості, особливий інтерес становлять компактні мовні моделі (SLM). Зокрема, детально розглянуто архітектуру Microsoft Phi-3-mini, чия висока продуктивність при малому розмірі (3,8 мільярда параметрів) досягається завдяки інноваційному підходу до навчання на високоякісних синтетичних даних, що ставить якість навчального масиву вище за його обсяг.
Посилання
OpenAI, GPT-4o, [Online], available at: https://openai.com/index/hello-gpt-4o/
GPT-4, [Online], available at: https://arxiv.org/abs/2303.08774
«Language Models are Few-Shot Learners», GPT-3, [Online], available at: https://arxiv.org/abs/2005.14165
Gemini 1.5 Pro Google, [Online], available at: https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/
Gemini 1.5, [Online], available at: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
Gemini 1.0, [Online], available at: https://arxiv.org/abs/2312.11805
Anthropic, [Online], available at: https://www.anthropic.com/news/claude-3-family
Cohere, [Online], available at: https://txt.cohere.com/blog/
Command R+, [Online], available at: https://txt.cohere.com/command-r-plus-rag-optimized-model/
[Online], available at: https://docs.cohere.com/
Vaswani, A., Gomez, A. et al., «Attention Is All You Need», [Online], available at: https://arxiv.org/abs/1706.03762
Llama 3 Meta AI, [Online], available at: https://ai.meta.com/blog/meta-llama-3/
Llama 2, [Online], available at: https://arxiv.org/abs/2307.09288
Llama Meta AI, [Online], available at: https://ai.meta.com/llama/
«Mixtral в блозі компанії», [Online], available at: https://mistral.ai/news/mixtral-of-experts/
Mixtral 8x7B, [Online], available at: https://arxiv.org/abs/2401.04088
«Detalnyi opys modeli, yii perevah ta rezultativ u benchmarkakh», Falcon 180B, [Online], available at: https://www.tii.ae/news/uaes-tii-releases-falcon-180b-advanced-open-source-ai-model
Hugging Face, [Online], available at: https://huggingface.co/tiiuae/falcon-180B
RefinedWeb, [Online], available at: https://huggingface.co/datasets/tiiuae/falcon-refinedweb
«BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding», [Online], available at: https://arxiv.org/abs/1810.04805
Microsoft Phi-3, [Online], available at: https://azure.microsoft.com/en-us/blog/introducing-phi-3-a-new-family-of-open-ai-models-from-microsoft/
Hugging Face, [Online], available at: https://huggingface.co/microsoft/Phi-3-mini-4k-instruct
«TinyStories: How Small Can Language Models Be and Still Speak Coherent English?», [Online], available at: [Online], available at: https://arxiv.org/abs/2305.07759
Vaswani, A. et al. (2017), «Attention Is All You Needhttps», [Online], available at: https://arxiv.org/abs/1706.03762
Microsoft (2024), «Phi-3 Technical Report», [Online], available at: https://arxiv.org/abs/2404.14219
Hugging Face, [Online], available at: https://huggingface.co/microsoft/Phi-3-mini-4k-instruct
«TinyStories: How Small Can Language Models Be and Still Speak Coherent English?», [Online], available at: https://arxiv.org/abs/2305.07759
Vaswani A. et al. (2017), «Attention Is All You Need», [Online], available at: https://arxiv.org/abs/1706.03762
Microsoft (2024), Phi-3 Technical Report, [Online], available at: https://arxiv.org/abs/2404.14219
Alammar, J., «The Illustrated Transformer», [Online], available at: http://jalammar.github.io/illustrated-transformer/
Vaswani, A., Shazeer, N., Parmar, N. et al. (2017), «Attention is All you Need Part of Advances in Neural Information Processing Systems 30», NIPS 2017.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Сергій Олексійович Дупелич, Володимир Васильович Дзюбенко

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial 4.0 International License.
Автор, який подає матеріали до друку, зберігає за собою всі авторські права та надає відповідному виданню право першої публікації, дозволяючи розповсюджувати даний матеріал із зазначенням авторства та джерела первинної публікації, а також погоджується на розміщення її електронної версії на сайті Національної бібліотеки ім. В.І. Вернадського.
