华创证券-传媒行业重大事项点评:豆包大模型发布视频生成模型,具备影视级视觉效果-240925
事项:
9月24日,字节跳动在2024火山引擎AI创新巡展深圳站发布豆包PixelDance和豆包Seaweed两种版本的视频生成大模型,现已邀请部分企业试用模型。
评论:
产品表现看,豆包视频生成模型具备高度语义理解和多镜头控制能力,能生成不同比例的画质高保真、风格多元的视频。根据火山引擎公众号,产品表现优势体现在1)精准语义理解,解决多主体动作交互难题。可以遵从复杂的用户提示词,精确理解语义关系,解锁时序性多拍动作指令与多个主体间的交互能力;2)强大的运镜控制能力,能生成一致性多镜头视频。在一句提示词内,可实现多个镜头切换,能让视频在主体的大动态与镜头中来回切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。在镜头切换的同时,还能保持主体、风格和氛围的一致性;3)高保真高美感,支持多种风格及比例。风格包括黑白、3D动画、2D动画、国画、水彩、水粉等。比例方面,模型支持1:1、3:4、4:3、16:9、9:16、21:9六个比例,适配电影、电视、电脑、手机等多种场景。
技术参数看,豆包视频生成模型在计算单元、训练方法和架构上进行了技术优化或创新。根据火山引擎公众号,包括1)高效的DiT融合计算单元,更充分地压缩编码视频与文本;2)全新设计的扩散模型训练方法,支持一致性多镜头生成;3)深度优化的Transformer结构,能大幅提升视频生成的泛化能力。
应用场景看,可用于电商、影视、广告营销等多领域。根据智东西公众号,场景包括1)电商营销:视频生成模型可生成商品的3D形态,从而动态多角度地展示商品。2)动画:视频生成模型可大幅降低动画的制作成本。3)其他:城市文旅、音乐MV、微电影、短剧等。
我们认为,字节跳动是国内算力储备好+视频语料多+技术人才丰的科技大厂之一,豆包视频生成模型的发布标志着其在视频生成领域加速追赶海外,看好视频模型侧进展驱动广告营销、影视院线、电商等产业AI应用加速发展。
风险提示:政策监管趋严,AI技术迭代发展不及预期,AI产品商业化不及预期等。
如果觉得此报告不错,请分享到微信朋友圈,支持作者写出更好的文章!