半年过去,AI视频卷到哪儿了?

自从今年年初Sora露面后,国内国外都想用AI颠覆好莱坞,近期的AI视频圈更是十分热闹,产品一个接一个发布,都喊着要赶超Sora。

国外两家AI视频初创公司率先开打,旧金山人工智能科技公司Luma推出Dream Machine视频生成模型,并扔出堪称电影级别的宣传片,产品也给用户免费试用;另一家在AI视频领域小有名气的初创公司Runway,也宣布将Gen-3 Alpha模型向部分用户开启测试,称能将光影这样的细节生产出来。

国内也不甘示弱,快手推出的可灵Web端,用户能生成长达10秒的视频内容,还具备首尾帧控制和相机镜头控制功能。其原创AI奇幻短剧《山海奇镜之劈波斩浪》也在快手播出,画面均由AI生成。AI科幻短剧《三星堆:未来启示录》也在近期播出,为字节旗下的AI视频产品即梦制作。

AI视频如此快的更新速度让不少网友直呼,“好莱坞可能又要来一次大罢工了。”

如今在AI视频赛道上,有谷歌、微软、Meta,阿里、字节、美图等国内外科技、互联网巨头,也有Runway、爱诗科技等新秀公司,据「定焦」不完全统计,仅国内,便有约20家公司推出了自研AI视频产品/模型。

头豹研究院数据显示,2021年中国AI视频生成行业的市场规模为800万元,预计2026年,这一市场规模将达到92.79亿元。不少业内人士相信,2024年生成视频赛道会迎来Midjourney时刻。

全球的Sora们发展到什么阶段了?谁最强?AI能干掉好莱坞吗?

围攻Sora:产品虽多,能用的少

AI视频赛道推出的产品/模型不少,但真正能让大众使用的十分有限,国外的突出代表便是Sora,半年过去了还在内测,仅对安全团队和一些视觉艺术家、设计师和电影制作人等开放。国内情况也差不多,阿里达摩院的AI视频产品“寻光”、百度的AI视频模型UniVG都在内测阶段,至于目前正火的快手可灵,用户想使用也需要排队申请,这已经刨去了一大半产品。

剩下可使用的AI视频产品中,一部分设置了使用门槛,用户需要付费或懂一定技术。比如潞晨科技的Open-Sora,如果不懂一点代码知识,使用者便无从下手。

「定焦」整理国内外公布的AI视频产品发现,各家的操作方式和功能差不多,用户先用文字生成指令,同时选择画幅大小、图像清晰度、生成风格、生成秒数等功能,最终点击一键生成。

这些功能背后的技术难度不同。其中最难的是,生成视频的清晰度和秒数,这也是AI视频赛道各家在宣传时比拼的重点,背后与训练过程中使用的素材质量和算力大小密切相关。

AI研究者Cyrus告诉「定焦」,目前国内外大多数AI视频支持生成480p/720p,也有少部分支持1080p的高清视频。

他介绍,高质量素材越多,算力越高,训练出来的模型能生成更高质量的视频,但不代表有高质量的素材算力,就能生成高质量素材。而用低分辨率素材训练的模型,若要强行生成高分辨视频,会出现崩坏或者重复,比如多手多脚。这类问题可以通过放大、修复和重绘之类的方式解决,不过效果和细节一般。

很多公司也把生成长秒数当卖点。

国内大部分AI视频支持2-3秒,能达到5-10秒算是比较强的产品,也有个别产品很卷,比如即梦最高长达12秒,不过大家都不及Sora,它曾表示最长能生成一段60秒的视频,但由于还没有开放使用,具体表现如何无法验证。

光卷时长还不够,生成的视频内容也得合理。石榴AI首席研究员张恒对「定焦」表示:从技术上,可以要求AI一直输出,毫不夸张地说,哪怕生成一个小时的视频,也不是问题,但我们多数时候要的并不是一段监控视频,也不是一个循环播放的风景画动图,而是画面精美有故事的短片。

「定焦」测试了5款国内比较热的免费文生视频AI产品,分别为字节的即梦、Morph AI的Morph Studio、爱诗科技的PixVerse、MewXAI的艺映AI、右脑科技的Vega AI,给了它们一段相同的文字指令:“一个穿着红裙子的小女孩,在公园里,喂一只白色的小兔子吃胡萝卜。”

几款产品的生成速度上差不多,仅需2-3分钟,但清晰度、时长差得不少,准确度上更是“群魔乱舞” ,得到结果如下 :

半年过去,AI视频卷到哪儿了?

艺映AI

半年过去,AI视频卷到哪儿了?

Vega AI

半年过去,AI视频卷到哪儿了?

即梦

半年过去,AI视频卷到哪儿了?

Morph

半年过去,AI视频卷到哪儿了?

Pix Verse各家的优缺点很明显。即梦赢在时长,但生成质量不高,主角小女孩在后期直接变形,Vega AI也是相同的问题。PixVerse的画质比较差。

相比之下,Morph生成的内容很准确,但只有短短2秒。艺映画质也不错,但对文字理解不到位,直接把兔子这一关键元素弄丢了,且生成视频不够写实,偏漫画风。

总之,还没有一家产品能给到一段符合要求的视频。

AI视频难题:准确性、一致性、丰富性

「定焦」的体验效果和各家释放的宣传片相差很大,AI视频如果想要真正商用,还有相当长的一段路要走。

张恒告诉「定焦」,从技术角度看,他们主要从三个维度考量不同AI视频模型的水平:准确性、一致性、丰富性。

如何理解这三个维度,张恒举了个例子。

比如生成一段“两个女孩在操场看篮球比赛”的视频。

准确性体现在,一是对内容结构理解的准确,比如视频中出现的要是女孩,而且还是两个;二是流程控制的准确,比如投篮投进后,篮球要从篮网中逐渐下降;最后是静态数据建模准确,比如镜头出现遮挡物时,篮球不能变成橄榄球。

一致性是指,AI在时空上的建模能力,其中又包含主体注意力和长期注意力。

主体注意力可以理解为,在看篮球比赛的过程中,两个小女孩要一直留在画面里,不能随便乱跑;长期注意力为,在运动过程中,视频中的各个元素既不能丢,也不能出现变形等异常情况。

丰富性则是指,AI也有自己的逻辑,即便在没有文字提示下,能生成一些合理的细节内容。

以上维度,市面上出现的AI视频工具基本都没能完全做到,各家也在不断提出解决办法。

比如在视频很重要的人物一致性上,即梦、可灵想到了用图生视频取代文生视频。即用户先用文字生成图片,再用图片生成视频,或者直接给定一两张图片,AI将其连接变成动起来的视频。

“但这不属于新的技术突破,且图生视频难度要低于文生视频,”张恒告诉「定焦」,文生视频的原理是,AI先对用户输入的文字进行解析,拆解为一组分镜描述,将描述转文本再转图片,就得到了视频的中间关键帧,将这些图片连接起来,就能获得连续有动作的视频。而图生视频相当于给了AI一张可模仿的具体图片,生成的视频就会延续图片中的人脸特征,实现主角一致性。

他还表示,在实际场景中,图生视频的效果更符合用户预期,因为文字表达画面细节的能力有限,有图片作为参考,会对生成视频有所帮助,但当下也达不到商用的程度。直观上说,5秒是图生视频的上限,大于10秒可能意义就不大了,要么内容出现重复,要么结构扭曲质量下降。

目前很多宣称用AI进行全流程制作的影视短片,大部分采用的是图生视频或者视频到视频。

即梦的使用尾帧功能用的也是图生视频,「定焦」特意进行了尝试,结果如下:

半年过去,AI视频卷到哪儿了?

在结合的过程中,人物出现了变形、失真。

Cyrus也表示,视频讲究连贯,很多AI视频工具支持图转视频也是通过单帧图片推测后续动作,至于推测得对不对,目前还是看运气。

据了解,文生视频在实现主角一致性上,各家也并非纯靠数据生成。张恒表示,大多数模型都是在原有底层DIT大模型的基础上,叠加各种技术,比如ControlVideo(哈工大和华为云提出的一种可控的文本-视频生成方法),从而加深AI对主角面部特征的记忆,使得人脸在运动过程中不会发生太大变化。

不过,目前都还在尝试阶段,即便做了技术叠加,也还没有完全解决人物一致性问题。

AI视频,为什么进化慢?

在AI圈,目前最卷的是美国和中国。

从《2023年全球最具影响力人工智能学者》(简称“AI 2000学者”榜单)的相关报告可以看出,2020年-2023年全球“AI 2000机构”4年累计的1071家机构中,美国拥有443家,其次是中国,有137家,从2023年“AI 2000学者”的国别分布看,美国入选人数最多,共有1079人,占全球总数的54.0%,其次是中国,共有280人入选。

这两年,AI除了在文生图、文生音乐的方面取得较大进步之外,最难突破的AI视频也有了一些突破。

在近期举办的世界人工智能大会上,倚天资本合伙人乐元公开表示,视频生成技术在近两三年取得了远超预期的进步。新加坡南洋理工大学助理教授刘子纬认为,视频生成技术目前处于GPT-3 时代,距离成熟还有半年左右的时间。

不过,乐元也强调,其技术水平还是不足以支撑大范围商业化,基于语言模型开发应用所使用的方法论和遇到的挑战,在视频相关的应用领域也同样适用。

年初Sora的出现震惊全球,它基于transformer架构的新型扩散模型DiT再做扩散、生成的技术突破,提高了图像生成质量和写实,使得AI视频取得了重大突破。Cyrus表示,目前国内外的文生视频,大多数都沿用的是类似技术。

半年过去,AI视频卷到哪儿了?

图源 / Sora官网

此刻,大家在底层技术上基本一致,虽然各家也以此为基础寻求技术突破,但更多卷的是训练数据,从而丰富产品功能。

用户在使用字节的即梦和Morph AI的Morph Studio时,可选择视频的运镜方式,背后原理便是数据集不同。

“以往各家在训练时使用的图片都比较简单,更多是对图片存在哪些元素进行标注,但没有交代这一元素用什么镜头拍摄,这也让很多公司发现了这一缺口,于是用3D渲染视频数据集补全镜头特征。”张恒表示,目前这些数据来自影视行业、游戏公司的效果图。

「定焦」也尝试了这一功能,但镜头变化不是很明显。

Sora们之所以比GPT、Midjourney们发展得慢,是因为又搭了一个时间轴,且训练视频模型比文字、图片更难。“现在能用的视频训练数据,都已经挖掘殆尽,我们也在想一些新办法制造一系列可以拿来训练的数据。”张恒说。

且每个AI视频模型都有自己擅长的风格,就像快手可灵做的吃播视频更好,因为其背后有大量这类数据支撑。

石榴AI创始人沈仁奎认为,AI视频的技术有Text to video(文本转视频),Image to video(图片转视频),Video to video(视频转视频),以及Avatar to video(数字人),能定制形象和声音的数字人,已经运用到了营销领域,达到了商用程度,而文生视频还需要解决精准度和可控度问题。

此刻,无论是由抖音和博纳合作的AI科幻短剧《三星堆:未来启示录》,还是快手原创的AI奇幻短剧《山海奇镜之劈波斩浪》,更多是大模型公司主动找影视制作团队进行合作,有推广自家技术产品的需求,且作品也没有出圈。

在短视频领域,AI还有很长的路要走,干掉好莱坞了的说法更为时尚早。

文章来源于网络。发布者:至诚财经网,转转请注明出处:https://www.nbdtoutiao.com/2024/07/23/6478.html

(0)
至诚财经网的头像至诚财经网
上一篇 2024 年 7 月 23 日 上午2:30
下一篇 2024 年 7 月 23 日 上午2:30

相关推荐

  • e网评|9月新势力“成绩单”出炉!理想、小鹏、极氪交付量创历史新高!零跑汽车交付再破3万辆

    每经编辑 黄胜     10月1日,理想汽车公布2024年9月交付数据。2024年9月,理想汽车交付新车53,709辆,同比增长48.9%。2024年第三季度,理想汽车交付152,831辆,同比增长45.4%。截至2024年9月30日,理想汽车2024年共交付341,812辆,历史累计交付量为975,176辆。 随着新能源汽车渗透率逐渐超过50%,品牌头部效…

    2024 年 10 月 1 日
    00
  • 小熊电器的“黑马”故事结束了?

    曾经风靡一时的厨房小家电正在遭遇市场冷落,曾经的“创意小家电第一股”小熊电器(002959.SZ)首当其冲。 8月底,小熊电器发布了2024年年中报。财报显示,小熊电器上半年实现营业收入21.31亿元,同比减少8.97%;归母净利润1.61亿元,同比下滑32.01%;扣非净利润1.23亿元,同比下降40.40%。 自2023年第四季度起,小熊电器连续三个季度…

    2024 年 10 月 9 日
    00
  • 【中信证券“空单”引关注,业内人士:属客户行为】

    ​9月27日,有关中信证券“空单爆仓”的传闻引发市场关注。有券商从业人士指出,市场对于所传的“空单”其实存在较深误解,所谓“空单”只是中信期货的代客行为。 据中信期货2024年4月发布的投教文章,根据法律规定,期货公司不能以自有资金交易期货,因此期货交易所披露的期货公司持仓,均为经纪业务客户的持仓。无论多仓还是空仓,都是客户持仓,交易也是客户行为。 事实上,…

    2024 年 9 月 29 日
    00
  • 【事件分析】全国生态日启动礼在港举行 港深签署框架安排提升生态合作

    中新社香港8月15日电 (记者 韩星童)全国生态日启动礼暨研讨会15日在香港举行。香港与深圳在启动礼上签署《“梧桐山——红花岭生态廊道”建设合作框架安排》,提升两地在生态联系及保育生物多样性方面的合作。 去年,十四届全国人大常委会第三次会议表决通过决定,将8月15日设立为全国生态日。今年为响应全国生态日,香港特区政府与非政府机构推出多项特别活动及优惠,让市民…

    2024 年 8 月 16 日
    00
  • 全球微速讯:渝农商行因掩盖不良贷款等9项违规被罚超千万,6名责任人受罚

    渝农商行(601077.SH,3618.HK)收到千万罚单,相关责任人也收到相关行政处罚。 11月21日,重庆银保监局披露的罚单显示,重庆农村商业银行股份有限公司主要违法违规事实共有九项:审查审批不尽职,超需求发放流动资金贷款形成风险;掩盖不良贷款;拨备覆盖率指标虚假,贷款减值准备不足;未按规定对质押资产进行审查即向政府融资平台公司发放贷款;同业授信调查及审…

    2024 年 7 月 18 日
    00

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信