标签:AI科普

N多模态大模型科普:AI 是如何同时看懂文字、图片和声音的

什么是多模态(文本+图像+音频+视频)、为什么重要、AI 怎么'看懂'图片(视觉编码器+对齐到语言空间)、典型能力(图像理解、OCR、看图问答、文生图视频、语音交互...