https://image.wenhaofree.com/2025/06/84543499c9e27ad5d0ed475431ca9953.png

InternVL——GPT-4V 的开源替代方案

在人工智能领域,InternVL 无疑是一颗耀眼的新星。它被认为是最接近 GPT-4V 表现的可商用开源模型,为我们带来了许多惊喜。

InternVL 具备强大的功能,不仅能够处理图像和文本数据,还能精妙地理解它们之间的复杂关系。比如,它可以准确地识别图像中的对象,并与相关描述对应起来。在 OCR 和文档理解方面,这款模型更是表现出色,能够有效识别和解释高达 4K 分辨率的文档图像中的文字。

摩根大通推出创新工具 FlowMind,引领金融自动化新变革

近日,摩根大通人工智能研究部推出了一款极具创新性的工具——FlowMind,为金融行业带来了全新的工作模式和效率提升。

FlowMind 能够自动化金融工作流程,在信贷审批、风险评估、合规监测等重要任务中发挥着关键作用。它利用 GPT 自动生成工作流程,大大提高了工作效率,同时减少了人为错误的发生。

生数科技发布可生成最长 16 秒、1080P 视频的类Sora模型:Vidu

生数科技与清华大学联合发布的 Vidu 视频大模型:创新与突破 的先锋

在中关村论坛未来人工智能先锋论坛上,生数科技与清华大学携手发布了一款令人瞩目的视频大模型——Vidu,它是中国首个长时长、高一致性、高动态性的视频大模型,更被视为国内首个达到 Sora 级别的视频大模型。

全新免费开源AI视频生成工具:本地部署,轻松生成超长2分钟视频

流媒体T2V

StreamingT2V 是一种先进的自回归技术,可以创建具有丰富运动动态且没有任何停滞的长视频。它确保整个视频的时间一致性,与描述性文本紧密结合,并保持高帧级图像质量。我们的演示包括高达 1200 帧、时长 2 分钟的视频的成功示例,并且可以延长更长的持续时间。重要的是,StreamingT2V 的有效性不受所使用的特定 Text2Video 模型的限制,这表明基础模型的改进可以产生更高质量的视频。