公司新闻
Meta 推出 Apollo 开源模型,让 AI “看懂”视频
作者: [db:作者] 点击次数: 发布时间: 2024-12-25 17:07
IT之家 12 月 18 日新闻,Meta 联袂斯坦福年夜学,推出全新 AI 模子系列 Apollo,明显晋升呆板对视频的懂得才能。IT之家注:只管人工智能在处置图像跟文本方面获得了宏大提高,但让呆板真正懂得视频繁然是一个严重挑衅。视频包括庞杂的静态信息,人工智能更难处置这些信息,不只须要更多的盘算才能,并且怎样计划最佳 AI 视频解读体系,也存在诸多艰苦。在视频处置方面,研讨职员发明,坚持每秒恒定的帧采样率能取得最佳成果。因而 Apollo 模子应用两个差别的组件,一个处置独自的视频帧,而另一个跟踪工具跟场景怎样随时光变更。别的,在处置后的视频片断之间增加时光戳,有助于模子懂得视觉信息与文本描写之间的关联,坚持时光感知。在模子练习方面,团队研讨标明练习方式比模子巨细更主要。Apollo 模子采取分阶段练习,按次序激活模子的差别局部,比一次性练习全部局部后果更好。别的 Meta 公司还一直优化数据组合,发明 10~14% 的文本数据,其他局部稍微倾向视频内容,能够更好地均衡言语懂得跟视频处置才能。Apollo 模子在差别范围上均表示杰出,较小的 Apollo-3B 超出了 Qwen2-VL 同等等范围的模子,而 Apollo-7B 超越更年夜参数的同类模子,Meta 已开源 Apollo 的代码跟模子权重,并在 Hugging Face 平台供给公然演示。参考Meta's new Apollo models aim to crack the video understanding problemMeta AI Releases Apollo: A New Family of Video-LMMs Large Multimodal Models for Video UnderstandingApollo: An Exploration of Video Understanding in Large Multimodal Models]article_adlist-->告白申明:文内含有的对外跳转链接(包含不限于超链接、二维码、口令等情势),用于通报更多信息,节俭甄选时光,成果仅供参考,IT之家全部文章均包括本申明。]article_adlist--> 申明:新浪网独家稿件,未经受权制止转载。 --> 上一篇:长安期货张晨:港口库存回落但成本支撑走弱 甲 下一篇:没有了