AI коригира само половината грешки в кода

11.04.2025 13:50
Коригирането на софтуерни грешки от AI е далеч от нивото, което човек би очаквал от опитни програмисти (снимка: CC0 Public Domain)

Тестването на моделите с изкуствен интелект е извършено на базата на най-добрия бенчмарк SWE-bench, който измерва способността на AI системите да създават програмен код. Оказва се, че дори топ AI модели като OpenAI (o1) и Anthropic (Claude 3.7 Sonnet) се справят само с половината от грешките.

По време на експеримента на AI агентите е възложено да решат 300 задачи за премахване на грешки в кода. Лидер е моделът Claude 3.7 Sonnet, който има успеваемост от 48,4%, следван от OpenAI o1 (30,2%) и o3-mini (22,1%).

Подобна ефективност в коригирането на софтуерни грешки е далеч от нивото, което човек би очаквал от опитни програмисти. Основният проблем, според TechCrunch, е, че изкуственият интелект все още не разбира как да използва наличните инструменти и да интерпретира грешките.

Ключова пречка остава липсата на данни за обучение на моделите. „Ние силно вярваме, че обучението или преквалификацията може да ги направи [AI моделите] по-добри интерактивни програми за отстраняване на грешки”, отбелязват авторите на изследването. „Това обаче изисква специализирани данни, например верига от записи на всички процеси на взаимодействие между хора и AI дебъгери”.

В момента такива данни са недостатъчни, което ограничава възможностите на AI моделите. Например, популярният инструмент Devin от стартиращата компания Cognition Labs се справя само с три от 20 теста за кодиране именно по тази причина.

И докато AI се използва силно от компании като Google, главният изпълнителен директор на компанията Сундар Пичай казва, че една четвърт от кода, създаден с помощта на изкуствен интелект, всъщност може да въведе грешки.

Технологичните лидери са скептични относно пълната автоматизация на програмирането. Бил Гейтс е убеден, че програмирането като професия със сигурност няма да изчезне. Подобни мнения споделят главният изпълнителен директор на Replit Амджад Масад, шефът на Okta Тод Маккинън и CEO-то на IBM Арвинд Кришна.

Въпреки очевидните предизвикателства, интересът към инструментите за разработка на AI продължава да расте. Инвеститорите виждат потенциал за повишаване на ефективността, но водещи разработчици смятат, че е твърде рано да се доверят изцяло на изкуствения интелект.

Източник: technews.bg

AI модели Microsoft изкуствен интелект коригиране на код програмиране
Технологии
Подобни  

Полицията се готви да въведе система с ИИ, която ще може да “предсказва” извършването на престъпления в метрото на Ню Йорк

04.05.2025 17:57    

Метрополитенът на Ню Йорк изследва възможностите на изкуствения ин

Много скоро Microsoft Authenticator ще изтрие запазените ви пароли. Ето какво трябва да направите, за да не ги загубите.

Microsoft започва поетапно премахване на функциите за управление на пароли в приложението Authenticator, като процесът ще протече в три етапа:

NotebookLM на Google вече предлага аудио обобщения на 76 нови езика, включително български

, позволява на потребителите да генерират подобни на подкаст аудио обобщения с помощта на виртуални водещи. Тези обобщения се създават на базата на

Изкуственият интелект като оръжие за манипулация: Експеримент в Reddit показва колко уязвими са хората

Екипа тайно пускат в действие AI ботове, които публикуват над 1700 коментара в продължение на няколко месеца. Тези ботове не просто участват в диск