OpenAI 再推出重磅模型 Sora!一句話產生長達一分鐘的影片!

前幾天 OpenAI 又發布了一個重大的消息!他們推出了新模型 Sora,一個可以將文字轉化為影片的深度學習模型。

在這篇,我們就來仔細看看這個新模型 Sora 究竟是什麼?它能夠做到什麼事?以及它的限制等等!

什麼是 Sora

ChatGPT 是什麼?應用、優缺點以及未來展望 那篇文章中,我們已經介紹過了什麼 OpenAI 是一間什麼樣的公司。

Sora 是他們最近開發出來的一個新的深度學習模型,重點功能在於將文字轉化為影片。

但其實,就像上圖一樣,Sora 不只是能將文字轉化為影片,它其實能夠將各種視覺資料作為輸入,並轉化為圖片或影片。

它能夠接收不同的影片,並輸出一個串接過後的影片。或是將硬邦邦的圖片轉為生動的影片。

但其實,這樣的功能早就有了,比如說 Runaway Gen2 或是 Pika,OpenAI 並不是第一個做到這件事的。

那 Sora 特別之處在哪裡呢?它又是如何做到的?接下來我們就要來探討這些事。

比較

前一小節我們講到,OpenAI 並不是第一個發明出可以將文字轉化為影片的模型。

早在 OpenAI 之前,Runaway Gen2 和 Pika 就已經做到這件事了,而且也可以將圖片或是影片作為輸入。

那為什麼 OpenAI 這次出的 Sora 造成這麼大轟動呢?除了 OpenAI 本身是一間備受矚目的公司以外,它和其他模型還有這些差異:

OpenAI Sora 其他模型
影片長度 一分鐘 大約十秒
影片長寬比 任意尺寸 固定尺寸
影片連接 可以 不可以
影片擴展 雙向擴展 只支持向後擴展
移動相機視角
和世界的互動
虛擬世界模擬 (Minecraft) 可以 不可以

由這個表格的比較,我們可以知道 OpenAI Sora 更勝一籌!

技術細節

接下來讓我們更深入了解 Sora 的技術細節。

OpenAI 並沒有完整公開模型的參數和設計細節,但有大致說明其使用到的概念,原文可以看這篇技術報告 Video generation models as world simulators

視覺補丁

大型語言模型 (Large Language Model) 之所以成功,是因為這些模型利用了一個所謂的「文本標記」。這些文本標記良好的統一了各種自然語言、數學、程式碼的使用。

OpenAI 在訓練 Sora 時,借鑑了同樣的概念,只是在這裡,這些統一的標記被叫做「視覺補丁」。這些補丁被許多研究證實為一種高度可擴展而且有效的表示法,一切輸入進 Sora 模型的視覺資料都會被轉化為視覺補丁。

從系統層級來看,Sora 會先將輸入的影片壓縮成低維度的空間,接著再將壓縮過後的產物分解成時空補丁。

影像壓縮模型

前面講到,輸入的影像會經過壓縮,之後才會轉成視覺補丁。

這個影片壓縮模型,也是經過大量資料訓練而成的,這個模型會將原始影片由原本的高維度空間轉為低維度空間。

這個模型存在的重點有幾個:

  1. 低維度空間的資料會減輕模型訓練的負擔
  2. 將影片中重要的資訊留下來(去蕪存菁)

同時,OpenAI 也訓練了解壓縮模型,這個模型則是將視覺補丁由低維度空間轉為原始影片存在的高維度空間,但這個模型則是在最後才會執行。

語言模型

訓練 Sora 需要巨量的訓練資料,這些訓練資料主要是備有文字敘述的影片。

為了取得這樣大量的訓練資料,OpenAI 首先額外訓練了一個可以為各種影片產生相對應文字敘述的模型,這個模型利用了 OpenAI 的另一個產物 DALL E3 中的演算法。接著再利用這個模型產生用來訓練 Sora 的資料集。

OpenAI 表明這個額外模型產生的資料對於提升 Sora 最終的影片質量擁有巨大的幫助。

另外,OpenAI 也利用 GPT 模型將輸入 Sora 的句子轉化為更具有描述性的文字。比方說,將「一隻黃色的小狗。」轉化為「一隻一身芥末黃的狗,他的大小和貴賓犬差不多。」

其他優化

Sora 在訓練模型時,並不像傳統方法一樣,會將訓練資料進行裁切與改變長寬比。

反而,OpenAI 使用訓練資料的原始尺寸與長度來進行模型的訓練。

以結果來看,這樣的模型所產生的影片具有幾點優勢:

  1. Sora 會依照硬體設備的大小產生相對應尺寸的影片
  2. 產出的影片具有較好的構圖(如下圖右)

能力

前面講到, Sora 最重要的貢獻在於將文字轉化為影片,但他還可以接受不同輸入以及產生不同輸出。

我們來看看他還有哪些功能!

圖片轉影片

Sora 還可以將硬生生的圖片轉化為生動的影片!

不同影片的串接

Sora 可以將兩個完全不相關的影片做串接,自行創造完美的轉場!

以下的例子是 Sora 將左邊(無人機)與右邊(蝴蝶)的影片串接成完成品(中間)。

移動的相機視角

Sora 產生的影片具有移動的相機視角,這也是 Sora 強大於其他模型的原因之一。

和世界的互動

Sora 產生的影片具有和世界互動的能力,比如說人咬下漢堡所留下的咬痕,或是作畫時留在畫布上的痕跡。

其他功能

Sora 可以將原始影片向前或是向後延伸,甚至更改原始影片的部分片段,比如說原本在高速公路行駛的車子可以變為在叢林中行駛。

另外,如同前面所說,Sora 也可以透過文字產生各種逼真的圖片。

OpenAI 團隊也發現,即使過程中離開影片的物體,Sora 也有能力保持該物體的一致性,這使得該物體如果重新進入畫面時的外觀依舊保持一致,或是動作具有連續性。

限制

雖然 Sora 真的很強大,但是 OpenAI 也提到了這個模型現在存在的限制。

無法重現的物理法則

雖然前一節提到,Sora 產生的影片可以和真實世界互動。但是 OpenAI 提到其實這樣的互動並非每次都可以成功,尤其是一些較為複雜的物理法則,比如說玻璃的破碎過程。

物體的突然出現

在多個類似物體或人物的場景下, Sora 所產生的影片可能會突然出現原本並不存在影片中的物體。

安全性

針對安全方面的顧慮,OpenAI 也提出了自己的看法以及相對應的政策。

  • 專業測試
  • 各類分辨模型
  • 聽取各方意見
專業測試

首先,Sora 這個模型的第一批使用權給到了和 OpenAI 合作的專業人士。

這些專業人士會針對仇恨言論、不公、資訊不對稱等等領域去重點測試 Sora,以確保 Sora 有符合安全上的顧慮。

各類分辨模型

Sora 另外也有自行開發各類分辨模型,這些分辨模型會做到以下這些事:

  • 檢測影片是否是由 Sora 產生,這可以幫助大家辨別真假
  • 檢測 Sora 產生的影片是否適合每個人觀看
  • 檢測使用者輸入的文字、圖片、影片是否具有不當成分,若有則拒絕接受
聽取各方意見

OpenAI 說到,他們會邀請各領域人士對 Sora 提出的見解與憂慮,包括政治、藝術、教育等等領域。

然而他們也說到,再多的測試與研究都無法百分百保證他們涵蓋到各種對實際社會的影響,不論好壞。

總結

這一章我們了解到 Sora 這個模型的強大之處以及其限制,同時我們也討論了對未來的期望以及對安全上的顧慮。

仔細想想 AI 是真的可怕,連動畫師的飯碗都要搶,說不定以後動畫師都要開始寫程式了呢!就連 Nvidia 的資深科學家也在 推特 上發文稱讚 Sora 的強大。

然而,我相信這對社會是好的,科技的進步總會伴隨著好與壞,這樣的模型會大幅降低創作的門檻,給予各類獨立創作者更多的空間。

Attributions:

Icon made by Freepik from www.flaticon.com