Міністерство цифрової трансформації представило масштабний методичний посібник, що стане незамінним ресурсом для українських технологічних компаній. Документ містить практичні поради щодо створення безпечних і етичних рішень на базі штучного інтелекту (ШІ/AI).
Колективна експертиза для ІТ-сектору України
Створення посібника стало результатом співпраці команди з 15 фахівців, які представляють сфери права та розвитку технологій машинного навчання. Документ орієнтований на українську ІТ-спільноту, що працює з великими мовними моделями, алгоритмами машинного навчання чи планує інтеграцію генеративного ШІ у власні продукти.
Основна мета рекомендацій – сприяти розробці не лише функціональних, але й відповідальних технологічних рішень. Посібник наголошує на створенні прозорих систем, що відповідають етичним стандартам і уникають упередженості у роботі.
Стратегічний підхід до відбору навчальних даних
Якість датасетів визначає ефективність майбутньої моделі. Експерти наголошують на необхідності ретельної верифікації інформаційних масивів перед їх використанням у навчальному процесі.
Ключові критерії якісного датасету включають:
- правову доступність даних через відповідні ліцензії чи дозволи;
- збалансованість без домінування окремих категорій;
- нормалізацію та знеособлення інформації;
- створення детальних метаданих про походження та структуру.
Недотримання цих стандартів призводить до системних помилок: класифікатори генерують хибні результати, а генеративні моделі демонструють «галюцинації» чи дискримінаційну поведінку щодо певних соціальних груп.
Для забезпечення якості даних рекомендовано використовувати перевірені інструменти: Python-бібліотеки Seaborn і Pandas Profiling, хмарні платформи Microsoft Azure, Amazon AWS і Google Cloud. Ці технології дозволяють ідентифікувати аномалії, пропуски, класовий дисбаланс та зміни у розподілах.
Хочеш працювати в IT або Digital і знати, як використовувати AI в роботі? Приходь на курси GoIT!
Методології навчання: від контрольованого до підкріплювального
Посібник систематизує три фундаментальні підходи до навчання моделей.
Контрольоване навчання
Базується на розмічених даних із чіткими зв’язками між вхідними й вихідними параметрами. Ідеально підходить для завдань класифікації та розпізнавання образів.
Неконтрольоване навчання
Працює з немаркованими даними, дозволяючи моделі самостійно виявляти закономірності. Застосовується для кластеризації, виявлення аномалій та зменшення розмірності даних.
Підкріплювальне навчання
Функціонує через систему винагород і покарань за дії агента у середовищі. Ефективне для багатоетапних завдань у робототехніці та ігрових застосунках, проте може призвести до надмірної орієнтації на задоволення користувача замість об’єктивності.
Сучасні великі мовні моделі, зокрема ChatGPT, використовують гібридний підхід: початкове неконтрольоване навчання для засвоєння мовних закономірностей з подальшим підкріплювальним навчанням на основі людського фідбеку (RLHF).
Тонке налаштування: баланс між ефективністю та вартістю
Методика тонкого налаштування (fine-tuning) рекомендована для адаптації моделей під специфічну термінологію, стилістику чи предметну галузь. Для успішного впровадження необхідний якісний набір пар «запит-відповідь» у структурованому форматі з ролями system, user і assistant.
Варто враховувати, що тонко налаштовані моделі вимагають більших ресурсів, що може бути економічно недоцільним для окремих розробників.
Критерії вибору великих мовних моделей
Вибір оптимальної моделі виходить за межі простих параметрів розміру та швидкості. Експерти рекомендують враховувати якість навчальних даних, розмір контекстного вікна, архітектурний тип і прозорість API.
Більшість моделей тренується на відкритих інтернет-ресурсах, що може містити неперевірену інформацію. Відсутність публічної інформації про джерела створює ризики дезінформації та упереджених результатів.
Контекстне вікно визначає обсяг інформації, яку модель може одночасно обробляти. Обмежене вікно призводить до втрати важливих деталей у тривалих діалогах або об’ємних документах.
Кількість параметрів не завжди корелює з якістю роботи. Архітектура, навчальні дані та методи тренування часто мають більший вплив на результативність.
Моделі класифікуються на три категорії:
- універсальні (GPT-4o);
- з розширеними логічними можливостями (o3);
- гібридні з поєднанням швидкості та аналітичних здібностей (Claude Sonnet).
Для оцінки рекомендовано використовувати бенчмарки Chatbot Arena, Hugging Face, MLPerf та тестові платформи OpenAI Playground, Anthropic Console, Azure Foundry.
Уже в IT або Digital, але хочеш бути на «ти» з AI? Тоді варто спробувати мінікурси GoIT!
Захист прав людини у ШІ-системах
Посібник ідентифікує критичні ризики на всіх етапах розробки та впровадження AI-технологій.
Медичні системи. Помилки можуть загрожувати життю пацієнтів.
HR-платформи. Посилення дискримінаційних практик.
Фінансові продукти. Необґрунтовані відмови у кредитуванні.
Модерація контенту. Цензурування легітимних висловлювань.
ШІ-системи можуть впливати на фундаментальні права: свободу думки, релігійні переконання, право власності, доступ до соціальних послуг і культурну участь.
Для мінімізації ризиків рекомендовано методологію HUDERIA від Ради Європи – інструмент оцінки AI-продуктів на відповідність принципам прав людини, демократії та верховенства права. Методологія включає розробку плану зниження ризиків і залучення стейкхолдерів від потенційно вразливих груп.
Правові аспекти та антимонопольні виклики
Посібник детально розглядає три критичні правові сфери.
Авторське право
Охоплює роботу з навчальними даними та згенерованим контентом, визначаючи межі дозволеного використання і власність на результати генерації.
Персональні дані
Фокусуються на відповідальній обробці чутливої інформації користувачів, правових підставах, захисті за замовчуванням та оцінці ризиків приватності згідно з GDPR і європейським законодавством.
Антимонопольні ризики
Звертають увагу на небезпеку технологічної залежності від великих постачальників AI-рішень. Монозалежність від одного API чи моделі створює вразливість до раптових змін правил або втрати доступу. Повний текст рекомендацій доступний для детального вивчення кожного з представлених блоків, забезпечуючи українським розробникам комплексний ресурс для створення відповідальних ШІ-продуктів.
Складно визначитися?
За 5 хв пройди тест із підбору професії
Він підкаже, який напрямок найбільше відповідає твоїм здібностям та попередньому досвіду
Пройти тест