一時間,不少國內網友直呼其為「國產之光」。
12 月初,MiniMax 又上新了圖生視頻模型 I2V-01-Live,新的模型專門對二次元效果進行了優化,能夠更好的將靜態的二次元圖片轉化為流暢且自然的動態視頻,至此,海螺 AI 開始進軍「動漫界」。
與此同時,OpenAI 的「雙十二」活動也在如火如荼的進行着,萬眾期待的 Sora Turbo 順勢開放。當「國產之光」碰上「話題之王」,會擦出怎樣的火花?雷峰網AI 科技評論第一時間對二者最新、最完整的模型進行了一手體驗,在給定的一系列固定提示詞的條件下,海螺 AI 的生成效果屬實令人眼前一亮。
「國產之光」VS「話題之王」
在這場視頻生成的狂歡中,不少網友腦洞大開,提供了各種虛實結合的有趣 idea:
在網友對比海螺 AI 和 Sora 生成的「喝茶的龍」的視頻下,評論區普遍認為 Sora 生成的龍與背景存在一定的違和感,儘管能夠創造出看似真實的圖像,但在細節融合和場景一致性上可能還存在一些挑戰。
提示詞:ancient dragon drinking tea。古老的龍在喝茶。
也有網友直接讓兩個模型生成《了不起的蓋茨比》小說中所描述的畫面,對比其生成效果的還原度,並銳利點評:海螺 AI 的效果確實有 20 世紀的味道,但 Sora 的效果卻顯得過於現代,不符合提示詞的要求。
提示詞:A realistic, high-definition 16:9 horizontal video depicting a lavish party at Jay Gatsby』s mansion from F. Scott Fitzgerald』s novel 『The Great Gatsby』. The scene captures the extravagant 1920s.
一個真實、高清的16:9橫向視頻,描繪了F. Scott Fitzgerald的小說《了不起的蓋茨比》中Jay Gatsby的豪宅里舉辦的奢華派對場景。這場戲捕捉了20世紀20年代的奢華氛圍。
還有網友將同一提示詞下 sora 和海螺 AI 生成的視頻做了橫向對比並評論:現在不需要Sora,海螺 AI 也能滿足我的一切需求。
提示詞:An astronaut in a white suit with a reflective visor stands amidst a glowing meadow of bioluminescent flowers under a surreal, starry night sky. The astronaut reaches out toward ethereal, glowing jellyfish floating gracefully in the air. The camera performs a slow dolly zoom。
一位穿着白色宇航服、戴着反光面罩的宇航員站在一片發光的生物熒光花叢中,頭頂是超現實的繁星點點的夜空。宇航員伸手向空中優雅漂浮的幽靈般發光的水母。攝像機進行緩慢的推拉變焦拍攝。
除了以上這些對比二者生成效果真實性的網友外,也有大批網友在體驗了 MiniMax 最新的 I2V-01-Live 圖生視頻模型后紛紛加入了對 海螺AI 的讚譽行列。
有從事藝術行業的網友晒圖並表示:這是我嘗試過的最難動畫化的圖片之一,幾乎所有平台都試過了,只有海螺 AI 成功讓這張圖片動了起來!
更有網友專門整理了視頻海螺 AI 的視頻合集,並配文:I2V-01-Live 就是為了讓 2D 動畫動起來而設計的,它不會讓你失望!
甚至有網友用 I2V-01-Live 「復活」了塔羅牌:這些人物動作流暢,彷彿被注入了生命一樣!
也有網友在嘗試過之後,認為這個模型的生成效果和兒童故事的插圖完美匹配,效果十分完美。
流暢、真實、有質感
看過了網友們對海螺 AI 和 Sora 的真實測評后,AI科技評論也進行了一手體驗,為了更加直觀的進行對比,生成時統一使用了 Sora 官方 demo 的視頻提示詞。
在嘗試製作「獼猴眼部特寫鏡頭」視頻時,海螺 AI 的生成效果相較於 Sora 更為直觀。視頻中,鏡頭緩緩移動,揭示出主角是一隻獼猴,毛髮與臉部輪廓處理真實細膩。然而,Sora 的效果如果不結合提示詞來理解,很難讓人將其與「獼猴」聯繫起來。儘管如此,Sora 卻成功捕捉到了猴子眼中的「星河宇宙」,而這一細節在海螺AI的效果中並不那麼明顯。
提示詞:a closeup of the eye of a macaque monkey. it is very still. the eye does not move, and the gaze of the eye does not move. the monkey stares back at us in the camera. we see the universe in the eye of the monkey.
一隻獼猴的眼睛的特寫鏡頭。它非常靜止。眼睛不動,目光也不移動。猴子在鏡頭中凝視着我們。我們在猴子的眼睛裡看到了宇宙。
在處理「頭髮凌亂不堪」這一指令時,兩個模型都選擇了通過「風吹」的效果來展現。然而,海螺 AI 所呈現的畫面更具動感,畫面感更為強烈。畫面中,一位老人緩緩轉身,微風輕拂,自然地掀起他的頭髮,顯得既真實又細膩。相比之下,Sora 的處理則顯得有些粗獷,彷彿是在「亂吹」。
提示詞:a close up of an old man having a really bad hair day.一個老人頭髮凌亂不堪的特寫鏡頭。
主角行走時動作僵硬、缺乏流暢性是許多視頻生成大型模型普遍面臨的問題,即使是被譽為「話題之王」的 Sora 也未能免俗。在 Sora 生成的視頻中,人物行走時步伐略顯僵硬,同時伴隨着鏡頭的輕微拉近,本意是為了營造一種從遠及近的視覺效果,但結果卻不盡人意,反而讓畫面顯得有些不協調。
而海螺 AI 在這方面的處理則顯得更為自然且流暢,巧妙地避免了這些問題,讓人物的動作和鏡頭的過渡都更加和諧,視覺舒適感拉滿。
提示詞:a hooded hunter walking between the trees in the snow.一個戴着兜帽的獵人在雪中的樹林間行走。
技術至臻,才能畫面至美
測評之外,真實的榜單數據也在彰顯着 MiniMax 的技術實力。
時至今日,MiniMax 視頻模型依然憑藉其卓越的畫面質感、內容的真實性以及流暢性等優勢,在 VBench榜單獨立測評評分上穩居首位。
據 MiniMax 介紹,他們的大模型每天要與全球用戶進行超30億次交互,平均處理超過3萬億文本token,生成2000萬張圖片以及7萬小時語音。在全球擁有多元化用戶分佈的同時,位居國內 AI 公司大模型日處理交互量榜首。
和Sora在年初的初次亮相相比, MiniMax 在視頻生成賽道上的「姍姍來遲」,公司創始人閆俊傑則表示這其實是一種「蓄力」,他希望 MiniMax 能夠在技術上形成絕對優勢后再進入賽道,以彌補入局晚的劣勢。在他看來,要大投入去做的技術研發,不應該只追求 5% 或是 10% 的提升,而應該追求幾倍的提升。
也正因如此,MiniMax 在視頻生成賽道中的「遲到行為」,便更像是刻意而為之,給人一種待萬事俱備之時,再乘東風之勢,一鳴驚人的從容與淡定。
事實證明,他們做到了。
2024 年 8 月,MiniMax 的 Abab-video-1 模型一經上線便火遍全球,迅速包攬各大榜單的 TOP 1。但在人們一聲聲「國產之光」的歡呼中,閆俊傑最先冷靜下來,他知道對於 MiniMax 而言,技術的重要性還在不斷的提升,技術好了,才能留住用戶。他曾說:「當技術做不好的時候,所有東西都是問題,當技術做好了,所有問題都會被掩蓋。」
繼10月上線圖生視頻功能后,MiniMax此次發佈最新圖生視頻模型 I2V-01-Live,再次證明了 MiniMax 在視頻生成大模型領域的技術能力。快速的產品更新周期將人們對海螺 AI 未來的文+圖生成視頻以及編輯可控性的期待值直接拉滿。
在競爭日益激烈的視頻生成大模型領域,MiniMax 作為新興力量,憑藉專註深耕的技術路線與精準前瞻的戰略布局脫穎而出,拉着視頻生成行業往前走了一大步。
然而,作為「後來者」,MiniMax究竟是如何推動行業發展的?其中緣由並不難理解。
從Mini,到Max
Sora 熱潮掀起了國內對視頻生成大模型的廣泛關注,各大公司「先後」入局,MiniMax 憑初創公司的身份,在一眾「宇宙大廠」面前表現不輸。
從默默無聞的初創公司,僅用了三年時間便到「國產之光」,MiniMax 或許真的不一般。
自公司成立,MiniMax堅持在多模態發力,其視頻生成模型生成內容從細節性、準確性以及豐富度上都得到了不錯的效果。
在應用趨勢上,MiniMax 的兩款視頻生成模型搶在 2024 年正式上線,緊抓 AI 視頻大模型爆髮式增長的機遇。作為 AI 視頻的應用元年,2024 年不僅是一個重要起點,也預示着行業邁入高速發展的新階段。隨着模型能力的不斷提升和推理成本的逐步下降,未來3-5年內,各類應用場景將陸續被解鎖。而 MiniMax 的這一布局,無疑佔據了行業應用趨勢的制高點。
從更長遠的視角來看,視頻生成模型則承載着更宏大的願景,有望成為世界模型以及通用 AGI 不可或缺的重要組成部分。無論是眼前還是未來,MiniMax 的路看似都沒有走錯。
除此之外,新一代的 AI 視頻工作流也正在萌生,它將會整合音頻、視頻的整個創作流程,大大的提高創作效率,同時也可以降低 AI 視頻內容在製作中各個環節的「違和」現象。這個工作流主要包括「精細化生成」和「流程化整合」兩個方向,前者主要是對視頻中的各類細節進行精準調試,後者是通過一站式服務提高工作效率。在這方面,MiniMax憑藉自研語音模型、音樂模型的創新和應用,可能早已為此做好了布局。
MiniMax 選擇在國內的 B 端和 C 端同時發力,打破了國內市場被「大廠」瓜分的商業化布局,力求在不同市場層面取得突破。通過滿足企業客戶的高效工作流需求以及個人用戶對創新工具的追求,MiniMax 能夠在兩條市場線中獲得更多機會。除此之外,MiniMax 還積極擴展海外市場,尋求全球化的發展機遇,利用不同地區的需求特點和潛力,推動品牌的全球化發展,並為其未來的商業化帶來更多的機遇。
與此同時 ,MiniMax 也在 AI 視頻生成的競爭中,憑藉其在基礎模型、產品和場景三個關鍵要素上的深度布局,逐步推動了技術和市場的發展,拉着國內視頻生成行業往前走了一大步。
至於 MiniMax 還能走多遠,看它硬是把自己從 mini 拼成了 Max 的勁頭,足以相信它以後的路還會很長。