Как можно заставить нейросети выдавать ложь за правду, выяснили ученые
Исследователи из США нашли способ «включать» и «выключать» отдельные понятия в больших языковых моделях. Работа показала, что с помощью математических приемов можно управлять ответами нейросетей. Ученые «вскрыли» модели Llama и DeepSeek и выделили 512 ключевых понятий в пяти категориях — от страхов до географии.
Разработанный метод позволяет усиливать или ослаблять влияние любого понятия на ответ модели. Технология работает с английским, китайским и хинди. Удалось повысить точность перевода кода с Python на C++ и заставить модель признавать собственные ошибки.
Но у инструмента есть и темная сторона: понизив значимость «концепта отказа», исследователи заставили модели выдавать инструкции по употреблению наркотиков, пропагандировать плоскую Землю и называть вакцины от COVID «ядовитыми». Это делает технологию потенциальным оружием для пропаганды и дезинформации.
Авторы признают, что метод работает только на открытых моделях и не применим к закрытым системам вроде Claude, а набор из 512 концептов не исчерпывает все абстрактные понятия. Однако научное сообщество уже заговорило о необходимости регулирования подобных техник. По сути, ученые создали инструмент, который одновременно служит и для тонкой настройки ИИ, и для его взлома, пишет Science.
Ранее российские ученые создали первую в мире нейросеть, определяющую депрессию с точностью до 93%. Разработка ляжет в основу автоматизированной диагностики и поможет врачам ставить более объективные диагнозы.
