Штучний інтелект може уповільнювати досвідчених розробників — дослідження METR

Попри загальні очікування щодо ефективності ШІ у програмуванні, нове дослідження некомерційної дослідницької організації METR, що спеціалізується на штучному інтелекті, засвідчило протилежне: передові інструменти ШІ можуть сповільнювати роботу досвідчених розробників, а не прискорювати її.
Замість очікуваних +24% — падіння продуктивності
Розробники і галузеві аналітики прогнозували, що ШІ-асистенти зможуть підвищити продуктивність принаймні на 24% при роботі з типовими репозиторіями. Однак у ході рандомізованого дослідження METR з’ясувалося, що застосування інструментів ШІ, навпаки, збільшує час виконання завдань приблизно на 19%.
«До нашого здивування, розробники витрачали більше часу, коли використовували інструменти ШІ», — зазначають автори звіту.
Проблема з бенчмарками: більше ефективності — менше реалізму
Дослідження також підкреслює недоліки сучасних бенчмарків, які оцінюють ШІ-інструменти: вони не враховують контекст реального програмування, натомість фокусуються на швидкості та масштабі. Задачі у таких тестах часто самодостатні, позбавлені складного середовища, з яким працюють розробники у реальності.
До того ж, через відсутність людського втручання, ШІ-моделі часто «застрягають» на дрібних труднощах, які програмісти легко долають вручну. Це створює ілюзію, що моделі працюють краще, ніж є насправді.
Прогрес є, але не в усіх умовах
Хоч результати загалом вказують на уповільнення темпів роботи, дослідники зазначають: в майбутньому ШІ-моделі можуть стати продуктивнішими в аналогічних умовах. Проте нинішні висновки вже кидають виклик поширеному переконанню, що ШІ робить досвідчених інженерів-програмістів суттєво продуктивнішими.
Це переконання, нагадаємо, стало одним із рушіїв масових інвестицій у компанії, які створюють ШІ-рішення для програмістів (так званий «vibe coding»).
«Ми бачимо суттєве розходження між очікуваним ефектом і реальним впливом ШІ на продуктивність», — підсумовують дослідники.
Також було виявлено, що ШІ-кодинг може іноді створювати помилки або вразливості у безпеці систем.
Як проходило дослідження
Методологія METR передбачала рандомізоване контрольоване дослідження. У ньому брали участь 16 досвідчених розробників, які виконали 246 завдань у репозиторіях Open Source, над якими регулярно працюють. Для кожного завдання випадковим чином дозволялося або заборонялося використання ШІ-помічників, після чого вимірювався час виконання.