第287章 模型訓練的改進技術
燃面不燃提示您:看後求收藏(第287章 模型訓練的改進技術,科技革命,從1984開始,燃面不燃,地主小說網),接著再看更方便。
請關閉瀏覽器的閱讀/暢讀/小說模式並且關閉廣告遮蔽過濾功能,避免出現內容無法顯示或者段落錯亂。
秦奕來到歷景鑠的辦公室。
“秦總,你看看!”歷景鑠看到秦奕就迫不及待地跟他分享了幾篇在美國學術圈引發熱烈討論的論文,“這篇內容就是之前立項時我跟你提過的反向傳播演算法,如今在那邊關注度極高。還有這篇綜述類論文,裡面提出了將啟發式演算法和引數模型描述人工智慧的想法。”
秦奕接過論文略讀了一遍。
前一篇里程碑式的論文不用說,它的提出為神經網路的訓練提供了一種高效且通用的方法,使得研究人員能夠深入探索多層神經網路的潛力,學術界的研究方向也從簡單的單層網路向更復雜、更強大的多層神經網路轉移,對整個人工智慧的發展都產生了不可估量的影響。
再看那篇綜述論文,雖說名氣不及前者,可在當下能提出這般論斷,也極具開創性。
秦奕是知道未來那些能完成複雜智慧任務的人工智慧,大多是以神經網路模型為核心運轉的。當下他便以這篇綜述論文為切入點,與歷景鑠就模型的訓練和推理,進行了一場激烈的頭腦風暴。
現在這個階段,雖然反向傳播演算法讓多層神經網路的訓練成為可能,訓練方法和理論仍在初步階段,尤其是這篇論文裡面用的 SIGmoId 函式很容易引起梯度消失或梯度爆炸,導致訓練難以穩定進行。
為了解決這個問題,秦奕把前世基本是模型訓練標配的修正線性單元啟用函式介紹給了歷景鑠。
另外關於過擬合的問題,秦奕也提到了批歸一化和隨機丟棄這兩種行之有效的技術。
批歸一化可以對每一層輸入資料進行歸一化處理,減少內部協變數偏移,提升模型訓練的穩定性;隨機丟棄則是在訓練過程中,隨機‘丟棄’一部分神經元及其連線,避免神經元之間過度依賴,防止模型過擬合。
歷景鑠聽得聚精會神,不時提出自己的疑問和見解,兩人討論得熱火朝天。
“另外,在推理方面,硬體計算能力有限,模型面臨著推理速度慢且準確性有限的困境。” 秦奕接著把剪枝和量化這兩種模型壓縮技術的思路講解了一下。
簡單來講,剪枝就是去除神經網路中冗餘的連線和神經元,量化則是把高精度的浮點型引數轉換為低精度的資料型別,這兩種技術能在不明顯降低模型準確性的前提下,大幅減少模型引數數量和計算量,從而顯著加快推理速度。
最後他又開始系統地介紹前世形成的一套較為規範的模型應用流程,這一套流程分為資料收集與預處理、模型構建、模型訓練、驗證和評估和評估模型幾個步驟。
秦奕說道:“資料收集與預處理,要儘可能多地收集與任務相關的資料,並對資料進行清洗、標註、歸一化等處理,確保資料的質量和可用性。”
“接著是模型構建,根據任務需求選擇合適的神經網路架構,確定模型的層數、神經元數量等引數。”
“模型訓練階段,利用反向傳播演算法和合適的最佳化器,不斷調整模型引數,使模型在訓練集上的損失函式值逐漸減小。在訓練過程中,要合理運用剛才提到的各種技術,防止過擬合,提升模型的泛化能力。”
前世幾十年的發展時間裡,最佳化器自然也一直都有變化,反向傳播論文裡面用的隨機梯度下降最佳化器原理相對簡單但存在明顯缺陷,不過目前其他最佳化器都會增加不少計算量,所以秦奕暫時沒有把其他最佳化器提出來。
而且他前面介紹的幾種改進都相對比較直觀,最佳化器的改進顯然是要有一定的訓練經驗才能理解的,就算現在提了歷景鑠也不一定能明白。
秦奕接著說道:“訓練完成後,透過在驗證集上的評估,對模型進行調優。最後,將訓練好且經過驗證的模型應用到實際任務中,並用測試集評估模型的最終
本章未完,點選下一頁繼續閱讀。