По мере быстрой разработки и внедрения новых больших языковых моделей, или LLM, существующие методы оценки их безопасности и выявления потенциальных уязвимостей быстро устаревают. Чтобы выявить проблемы безопасности до того, как они повлияют на критически важные приложения, исследователи из Университета Джона Хопкинса разработали возобновляемую и устойчивую систему оценки LLMS, которая упрощает различные типы атак и позволяет проводить высококачественные, легко обновляемые тесты безопасности, при этом для их проведения требуются минимальные усилия человека.
Новости от techxplore


