【杜蘭說AI】大模型的“大”到底是啥？

大模型的“大”到底是啥？
一共四個維度，
第一，
參數規模，
就像是你吃火鍋時鍋的大小，
也是一切的基礎，
ChatGPT就是一口1750億參數的巨型火鍋，
因為夠大，
所以能涮的食材也多。

這又涉及到了咱們的第二個維度，
訓練數據的規模，
就是咱們涮火鍋的食材種類，
食材越多越豐富，
涮鍋的味道就越香，
這也就是為啥說
“訓練數據決定了模型的知識廣度和深度”。

第三是計算量，
也叫訓練模型的能源消耗，
計算量大不大，
就是在問你這鍋的火力大不大？
一般肯定是火力越強熟得越快，
但也有像DeepSeek這樣，
著名的550萬美元能耗的火鍋，
主打一個“智能控溫”，
能耗小，
湯也能熟。

最後一個叫上下文窗口，
它決定的是模型能同時處理的信息量，
這回咱得支個桌了，
上下文窗口越大，
就相當於你放火鍋的餐桌越大，
那能放的菜品肯定也越多，
模型一次能處理的信息也就越多。

總結起來就是，
大模型就是一鍋容量大、食材多、火力強、桌面寬的火鍋。
好了，
吃個火鍋獎勵一下自己吧。

FINMETA

【線上社區】

【線下空間】