B站開源動漫視頻生成模型AniSora V3發布
7月7日,嗶哩嗶哩正式推出開源動漫視頻生成模型AniSora V3預覽版,這是繼去年V2版本后的又一次重大升級。
據報道,在技術層面,AniSora V3基于B站此前開源的CogVideoX-5B和Wan2.1-14B模型,通過引入強化學習與人類反饋(RLHF)優化框架,大幅提升了生成視頻的視覺質量和動作連貫性。最引人注目的是其全新升級的時空掩碼模塊,能夠實現更精細的角色表情控制和動態鏡頭移動,甚至可以完成"五位女孩同步舞蹈,鏡頭隨動作推近拉遠"這樣復雜的動畫指令。
值得一提的是,V3版本特別針對國產硬件進行了優化,新增對華為Ascend910B NPU的原生支持,使得推理速度提升約20%。在實際測試中,生成一段4秒的1080p高清視頻僅需2-3分鐘,大大提升了創作效率。同時,經過優化的數據清洗流程確保了生成內容在風格上的一致性,讓創作者能夠更精準地控制作品的藝術風格。
從應用場景來看,AniSora V3展現出強大的多任務處理能力。無論是將單張靜態圖片轉化為動態視頻,還是為漫畫分鏡添加口型同步的動畫效果,亦或是輔助VTuber進行實時動作生成,V3版本都能提供專業級的支持。測試數據顯示,相比前代版本,V3在生成復雜場景時的偽影問題減少了15%,在角色一致性和動作流暢度等關鍵指標上都達到了業界領先水平。
與OpenAI的Sora等通用視頻生成模型不同,AniSora V3專注于動漫這一垂直領域,在二次元風格的表現上更具優勢。目前,已有開發者基于V3開發出能夠強化特定動漫風格的定制插件,如吉卜力風格或賽博朋克風格的專用生成器。這種專業化的發展路線,使得AniSora在動漫內容創作領域形成了獨特的競爭優勢。