L2 – популярна метрика регуляризації з такою формулою:
Наприклад, у таблиці нижче наведено значення регуляризації L2, обчислені для моделі із шістьма коефіцієнтами ваги.
Значення | Значення у квадраті | |
---|---|---|
w1 | 0,2 | 0,04 |
w2 | –0,5 | 0,25 |
w3 | 5,0 | 25,0 |
w4 | –1,2 | 1,44 |
w5 | 0,3 | 0,09 |
w6 | –0,1 | 0,01 |
Усього: 26,83 |
Зверніть увагу, що ваги, близькі до нуля, не сильно впливають на регуляризацію L2, а от великі можуть мати значний вплив. Наприклад, у даних, наведених у таблиці вище:
- одна вага (w3) становить приблизно 93% від загальної складності;
- інші п’ять ваг разом складають лише близько 7% від неї.
Регуляризація L2 сприяє наближенню ваг до 0, але не перетворює їх на це число.
Вправи. Перевірте свої знання
Коефіцієнт регуляризації (лямбда)
Як уже зазначалося, у процесі навчання модель намагається мінімізувати комбінацію втрат і складності:
Розробники налаштовують загальний вплив складності на навчання моделі, множачи її значення на скаляр, який називається коефіцієнтом регуляризації. Його зазвичай символізує грецький символ лямбда.
Тобто розробники моделі прагнуть застосувати ось що:
Високий коефіцієнт регуляризації
- Посилює вплив регуляризації, тим самим зменшуючи ймовірність надмірного навчання.
- Має тенденцію створювати гістограму ваг моделі з такими характеристиками:
- нормальний розподіл;
- середня вага становить 0.
Низький коефіцієнт регуляризації
- Зменшує вплив регуляризації, тим самим збільшуючи ймовірність надмірного навчання.
- Має тенденцію створювати гістограму ваг моделі з плоским розподілом.
Наприклад, гістограма ваг моделі для високого коефіцієнта регуляризації може виглядати так, як показано на рисунку 18.
А низький коефіцієнт регуляризації має тенденцію давати більш плоску гістограму, як показано на рисунку 19.
Вибір коефіцієнта регуляризації
Якщо правильно вибрати коефіцієнт регуляризації, створена модель добре узагальнюватиме нові, раніше невідомі дані. На жаль, ідеальне значення залежить від даних, тому слід виконати налаштування.
Рання зупинка: альтернатива регуляризації на основі складності
Рання зупинка – це метод регуляризації, який не передбачає обчислення складності. Натомість рання зупинка – це просто завершення навчання до того, як модель досягне повної збіжності. Наприклад, можна завершити навчання, коли крива втрат для набору даних для перевірки починає зростати (нахил стає позитивним).
Рання зупинка зазвичай збільшує втрати під час навчання, проте може зменшити їх при тестуванні.
Рання зупинка – це швидка, але рідко оптимальна форма регуляризації. Отримана модель навряд чи демонструватиме настільки гарні результати, як модель, що пройшла ретельне навчання з ідеальним коефіцієнтом регуляризації.
Пошук балансу між швидкістю навчання й коефіцієнтом регуляризації
Швидкість навчання й коефіцієнт регуляризації мають тенденцію тягнути ваги в протилежних напрямках. Висока швидкість навчання часто віддаляє ваги від нуля, тоді як високий коефіцієнт регуляризації наближає їх до нього.
Якщо коефіцієнт регуляризації високий відносно швидкості навчання, малі ваги зазвичай формують модель, яка робить погані прогнози. І навпаки, якщо швидкість навчання висока відносно коефіцієнта регуляризації, через великі ваги модель зазвичай перенавчається.
Мета – знайти баланс між швидкістю навчання й коефіцієнтом регуляризації. Це може бути складним завданням. Найгірше те, що вам може знадобитися радикально змінити швидкість навчання після того, як ви знайдете цей невловимий баланс. Через що доведеться знову шукати ідеальний коефіцієнт регуляризації.