Skip to main content

Точно так же, как человеческие глаза обычно фокусируются на изображениях, прежде чем читать сопроводительный текст, мультимодальный искусственный интеллект (ИИ), который обрабатывает сразу несколько типов сенсорных данных, также имеет тенденцию в большей степени зависеть от определенных типов данных. Исследователи KAIST разработали новую мультимодальную технологию обучения ИИ, которая позволяет моделям равномерно распознавать как текст, так и изображения, что позволяет делать гораздо более точные прогнозы.

Новости от techxplore