پاسخ داده شده: تفاوت محو گرادیان و انفجار گرادیان
قبلا در مورد Vanishing Gradient در این لینک بحث شده و در باب Exploding Gradient هم در لینک مطالبی گفته شده .
Exploding Gradient :
• مدل اطلاعات زیادی را در طول فرآیند آموزش یاد نمی گیره، در نتیجه loss ضعیفی دارد.
• به علت پایدار نبودن مدل، تغییرات زیادی در بروز رسانی وزنها دیده میشه و وزنها در زمان آموزش به صورت نمایی رشد می کنند.
• در طول آموزش تابع هزینه مقدار NaN بگیره
Vanishing Gradient :
- وزن های مدل در حین آموزش صفر میل می کنه.
- وزن های مدل به صورت نمایی کم میشه.
- در طول آموزش بهبود مدل بسیار کنده، و ممکنه آموزش خیلی زود متوقف شه .
- تغییرات در وزنهای نزدیک به لایه خروجی بیشتر از لایه های نزدیک به لایه ورودی است.
برای جلوگیری از این دو پدیده می تونیم به صورت زیر عمل کنیم:
- استفاده از توابع فعال سازی (یکسوساز خطی)
- تغییر در روش وزندهی اولیه دیگر
- بریدگی گرادیان :این متدکه برای انفجار گرادیان مناسبه ، اندازه گرادیان را با یک حد آستانه محدود می کنه. اینکار باعث میشه ، گرادیان هایی که حد آستانه های بالاتر از نرم تعیین شده دارند قطع شده تا با نرم مطابقت پیدا کنند.
.