在金融市場分析中,大砲模型是一種常用的工具,它基於經濟數據和歷史資料來預測市場走勢。大砲模型的應用範圍廣泛,從股票市場到外匯市場,從投資組合管理到風險控制,都能發揮重要作用。透過大砲模型,投資者可以更好地理解和預測市場的動態,從而做出更為明智的投資決策。
值得注意的是,參數量的減少並非通過剪枝和量化來實現,這些方法僅用於推理加速,而不會實際減少模型的參數。在預訓練階段,為了獲得更優的效果,往往需要使用大量的數據來進行硬訓練。如果參數規模不足,那麼就需要提高數據質量和數據數量來彌補。在指令微調階段,通常會對更優秀的大模型進行蒸餾,以提升小模型的表現。一個常用的做法是利用GPT-3.5、GPT-4的數據直接進行指令微調,這是一種對閉源大模型進行蒸餾的方法。然而,也可以在蒸餾過程中引入閉源大模型作為裁判,比較教師模型和學生模型的解答,並讓學生模型從中學習和進步。如果擁有更多更好的大模型,則可以直接使用知識蒸餾的方法,通過KL散度來訓練學生模型,讓其模仿教師模型的輸出概率分佈。


最近,Google發佈了面向移動端的Gemini模型,根據手機性能選擇1.8B或3.25B參數的版本。微軟則推出了2.7B參數的Phi-2模型,表現十分出色。本文作者也一直在研究參數規模在1-2B左右的模型,並在此基礎上分享一些心得體會,同時總結了市面上已開源的1-2B參數規模的大模型。
值得注意的是,參數量的減少並非通過剪枝和量化來實現,這些方法僅用於推理加速,而不會實際減少模型的參數。在預訓練階段,為了獲得更優的效果,往往需要使用大量的數據來進行硬訓練。如果參數規模不足,那麼就需要提高數據質量和數據數量來彌補。在指令微調階段,通常會對更優秀的大模型進行蒸餾,以提升小模型的表現。一個常用的做法是利用GPT-3.5、GPT-4的數據直接進行指令微調,這是一種對閉源大模型進行蒸餾的方法。然而,也可以在蒸餾過程中引入閉源大模型作為裁判,比較教師模型和學生模型的解答,並讓學生模型從中學習和進步。如果擁有更多更好的大模型,則可以直接使用知識蒸餾的方法,通過KL散度來訓練學生模型,讓其模仿教師模型的輸出概率分佈。
小規模模型的開源列表與分析
下表列出了已知的1-2B參數規模的大模型,按照參數量從大到小排序: