本文字数:约 2000 字,预计阅读时间:8 分钟
CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛全球第一
在CVPR 2025的NTIRE(New Trends in Image Restoration and Enhancement)视频质量评价挑战赛中,字节跳动旗下火山引擎团队凭借创新的AI算法夺得全球第一。该比赛是计算机视觉领域最具权威性的赛事之一,吸引了来自Google、Meta、腾讯等全球顶尖团队的参与。
火山引擎团队采用了多模态融合的深度学习架构,将传统视频质量评估指标与基于Transformer的特征提取网络相结合。其核心创新点在于:
- 提出了动态感知的质量评估模块,能够自适应不同分辨率和压缩率的视频内容
- 开发了时空注意力机制,有效捕捉视频帧间的时间相关性
- 引入人类视觉系统(HVS)先验知识,使模型更符合人眼感知特性
这项技术的突破对视频平台、云游戏、VR/AR等领域具有重要意义。据团队透露,该算法已在抖音等产品中进行测试,可将视频转码效率提升30%以上,同时保证更优的观看体验。未来还将应用于火山引擎的媒体处理服务中,为行业提供更智能的视频质量评估解决方案。
GPT-4.1登场,实测碾压OpenAI所有模型,但效果不如Gemini?
OpenAI近日悄然发布了GPT-4.1版本,根据第三方评测机构AIBenchmark的测试报告显示,该模型在多项基准测试中表现优于此前所有OpenAI发布的模型,但在部分多模态任务上仍落后于Google的Gemini 1.5 Pro。
技术分析指出,GPT-4.1主要改进了以下几个方面:
- 上下文窗口扩展至256K tokens,处理长文档能力显著提升
- 推理速度比GPT-4 Turbo快40%,响应延迟降低至平均1.2秒
- 数学和代码能力有显著提升,在HumanEval测试中达到92.3%的正确率
- 新增"思维链验证"机制,可自动检测并修正推理过程中的逻辑错误
值得注意的是,在多模态理解方面,GPT-4.1虽然支持图像、音频输入,但在跨模态关联任务上的准确率比Gemini低约15%。专家认为这可能与OpenAI更专注于纯文本领域的优化有关。该模型的发布进一步加剧了大模型领域的竞争态势,预计将推动新一轮的模型性能竞赛。
视频、游戏、AIGC全都要!多模态大模型如何玩转落地?| InfoQ《极客有约》
在最新一期InfoQ《极客有约》节目中,多位AI专家深入探讨了多模态大模型在实际应用中的挑战与机遇。来自腾讯、字节跳动和商汤科技的技术负责人分享了各自在多模态AI落地方面的实践经验。
腾讯AI Lab展示了其"混元"大模型在游戏领域的应用案例:通过将文本、图像、3D模型等多模态数据统一编码,实现了游戏场景的智能生成和NPC对话的自然演进。该技术已在《王者荣耀》等游戏中试点,可将内容生产效率提升5倍。
字节跳动则重点介绍了其在短视频推荐系统中的创新:通过多模态理解模型,系统能同时分析视频的视觉内容、音频特征和用户评论情感,使推荐准确率提升18%。特别值得注意的是其"跨模态对齐"技术,解决了不同模态特征空间不一致的难题。
商汤科技分享了在工业质检中的应用案例,其多模态系统能同时处理X光图像、红外数据和超声波信号,在复杂缺陷检测任务中达到99.3%的准确率。专家们一致认为,2025年将是多模态AI大规模落地的关键一年,但如何平衡模型规模和推理成本仍是行业面临的重大挑战。
英伟达最新财报显示,其数据中心业务营收达到创纪录的126亿美元,同比增长280%,而游戏业务营收为25亿美元,同比仅增长15%。这一数据引发了关于英伟达业务重心转移的广泛讨论。
深入分析发现,游戏GPU的AI能力正在成为新的增长点。RTX 40系列显卡搭载的Tensor Core和DLSS 3.5技术,使其成为本地运行AI模型的理想平台。据统计,已有超过2000万用户使用英伟达显卡运行Stable Diffusion等AI应用。游戏业务正在从单纯的娱乐硬件供应商,转型为AI计算生态的重要组成部分。
技术专家指出,游戏显卡的并行计算架构特别适合推理任务,且相比专用AI芯片具有更好的性价比。英伟达也正在通过CUDA和TensorRT等软件栈,进一步强化游戏GPU的AI能力。这种"游戏+AI"的双轮驱动模式,可能成为英伟达未来的重要战略方向。
《三角洲行动》凭借创新的AI技术应用,在竞争激烈的FPS市场取得了突破性成功。游戏开发团队透露,其核心技术优势在于:
特别值得注意的是,游戏内置的AI观战系统能自动识别精彩瞬间并生成短视频,极大促进了社区传播。技术负责人表示,下一步将引入多模态大模型,实现更智能的NPC交互和剧情生成,进一步降低内容生产成本。
今日AI领域呈现出技术突破与产业落地并重的特点。在基础研究方面,火山引擎的视频质量评估算法和OpenAI的GPT-4.1展现了AI模型持续的性能提升;在应用层面,多模态大模型开始全面渗透游戏、视频、工业等各个领域。值得关注的是,AI技术正在重塑传统业务模式,如英伟达的游戏显卡转型为AI计算平台,游戏开发中的AI应用也成为产品差异化的关键。未来一段时间,如何将前沿AI技术与具体场景深度结合,平衡性能与成本,仍将是行业探索的重点方向。
本文作者:Kevin@灼华
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!