Как можно заставить нейросети выдавать ложь за правду, выяснили ученые

США •19/06/2026 — 17:56

Фото: Shutterstock/FOTODOM/ TippaPatt

Исследователи из США нашли способ «включать» и «выключать» отдельные понятия в больших языковых моделях. Работа показала, что с помощью математических приемов можно управлять ответами нейросетей. Ученые «вскрыли» модели Llama и DeepSeek и выделили 512 ключевых понятий в пяти категориях — от страхов до географии.

Разработанный метод позволяет усиливать или ослаблять влияние любого понятия на ответ модели. Технология работает с английским, китайским и хинди. Удалось повысить точность перевода кода с Python на C++ и заставить модель признавать собственные ошибки.

Но у инструмента есть и темная сторона: понизив значимость «концепта отказа», исследователи заставили модели выдавать инструкции по употреблению наркотиков, пропагандировать плоскую Землю и называть вакцины от COVID «ядовитыми». Это делает технологию потенциальным оружием для пропаганды и дезинформации.

Авторы признают, что метод работает только на открытых моделях и не применим к закрытым системам вроде Claude, а набор из 512 концептов не исчерпывает все абстрактные понятия. Однако научное сообщество уже заговорило о необходимости регулирования подобных техник. По сути, ученые создали инструмент, который одновременно служит и для тонкой настройки ИИ, и для его взлома, пишет Science.

Ранее российские ученые создали первую в мире нейросеть, определяющую депрессию с точностью до 93%. Разработка ляжет в основу автоматизированной диагностики и поможет врачам ставить более объективные диагнозы.

Как можно заставить нейросети выдавать ложь за правду, выяснили ученые

Последние новости

Сюжет

Британские ученые раскрыли значение Камня Артура возрастом 6 тысяч лет

Серебряный слиток с затонувшего в XVII веке галеона нашли у берегов Флориды

Неизвестную рукопись Моцарта нашли в парижской библиотеке

Меч возрастом около трех тысяч лет откопал кладоискатель в Польше

Последние новости