Точно так же, как человеческие глаза обычно фокусируются на изображениях, прежде чем читать сопроводительный текст, мультимодальный искусственный интеллект (ИИ), который обрабатывает сразу несколько типов сенсорных данных, также имеет тенденцию в большей степени зависеть от определенных типов данных. Исследователи KAIST разработали новую мультимодальную технологию обучения ИИ, которая позволяет моделям равномерно распознавать как текст, так и изображения, что позволяет делать гораздо более точные прогнозы.
Новости от techxplore
