Надмірне навчання: регуляризація L2
Тримайте все під контролем за допомогою колекцій Зберігайте контент і організовуйте його за категоріями відповідно до своїх потреб.

L₂ – популярна метрика регуляризації з такою формулою:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

Наприклад, у таблиці нижче наведено значення регуляризації L₂, обчислені для моделі із шістьма коефіцієнтами ваги.

	Значення	Значення у квадраті
w₁	0,2	0,04
w₂	–0,5	0,25
w₃	5,0	25,0
w₄	–1,2	1,44
w₅	0,3	0,09
w₆	–0,1	0,01
		Усього: 26,83

Зверніть увагу, що ваги, близькі до нуля, не сильно впливають на регуляризацію L₂, а от великі можуть мати значний вплив. Наприклад, у даних, наведених у таблиці вище:

одна вага (w₃) становить приблизно 93% від загальної складності;
інші п’ять ваг разом складають лише близько 7% від неї.

Регуляризація L₂ сприяє наближенню ваг до 0, але не перетворює їх на це число.

Вправи. Перевірте свої знання

Якщо використовувати регуляризацію L₂ під час навчання моделі, що, найімовірніше, станеться з її загальною складністю?

Імовірно, загальна складність моделі знизиться.

Оскільки регуляризація L₂ сприяє наближенню ваг до 0, загальна складність, імовірно, знизиться.

Імовірно, загальна складність моделі залишиться незмінною.

Це дуже малоймовірно.

Вірогідно, загальна складність моделі підвищиться.

Це малоймовірно. Пам’ятайте, що регуляризація L₂ сприяє наближенню ваг до 0.

Якщо використовувати регуляризацію L₂ під час навчання моделі, деякі ознаки буде видалено з неї.

Істина

Через регуляризацію L₂ деякі ваги можуть стати дуже малими, проте ніколи не зрівняються з нулем. Отже, модель усе одно враховуватиме всі ознаки.

Хиба

Через регуляризацію L₂ ваги ніколи не зрівняються з нулем.

Коефіцієнт регуляризації (лямбда)

Як уже зазначалося, у процесі навчання модель намагається мінімізувати комбінацію втрат і складності:

$$\text{minimize(loss} + \text{ complexity)}$$

Розробники налаштовують загальний вплив складності на навчання моделі, множачи її значення на скаляр, який називається коефіцієнтом регуляризації. Його зазвичай символізує грецький символ лямбда.

Тобто розробники моделі прагнуть застосувати ось що:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Високий коефіцієнт регуляризації

Посилює вплив регуляризації, тим самим зменшуючи ймовірність надмірного навчання.
Має тенденцію створювати гістограму ваг моделі з такими характеристиками:
- нормальний розподіл;
- середня вага становить 0.

Низький коефіцієнт регуляризації

Зменшує вплив регуляризації, тим самим збільшуючи ймовірність надмірного навчання.
Має тенденцію створювати гістограму ваг моделі з плоским розподілом.

Наприклад, гістограма ваг моделі для високого коефіцієнта регуляризації може виглядати так, як показано на рисунку 18.

Рисунок 18. Гістограма коефіцієнтів ваги моделі із середнім значенням, що дорівнює нулю, і нормальним розподілом. — **Рисунок 18.** Гістограма ваг для високого коефіцієнта регуляризації. Середнє значення дорівнює нулю. Нормальний розподіл.

А низький коефіцієнт регуляризації має тенденцію давати більш плоску гістограму, як показано на рисунку 19.

Рисунок 19. Гістограма коефіцієнтів ваги моделі із середнім значенням, що дорівнює нулю, і поєднанням плоского й нормального розподілу. — **Рисунок 19.** Гістограма ваг для низького коефіцієнта регуляризації. Середнє значення може дорівнювати нулю, але не обов’язково.

Вибір коефіцієнта регуляризації

Якщо правильно вибрати коефіцієнт регуляризації, створена модель добре узагальнюватиме нові, раніше невідомі дані. На жаль, ідеальне значення залежить від даних, тому слід виконати налаштування.

Рання зупинка: альтернатива регуляризації на основі складності

Рання зупинка – це метод регуляризації, який не передбачає обчислення складності. Натомість рання зупинка – це просто завершення навчання до того, як модель досягне повної збіжності. Наприклад, можна завершити навчання, коли крива втрат для набору даних для перевірки починає зростати (нахил стає позитивним).

Рання зупинка зазвичай збільшує втрати під час навчання, проте може зменшити їх при тестуванні.

Рання зупинка – це швидка, але рідко оптимальна форма регуляризації. Отримана модель навряд чи демонструватиме настільки гарні результати, як модель, що пройшла ретельне навчання з ідеальним коефіцієнтом регуляризації.

Пошук балансу між швидкістю навчання й коефіцієнтом регуляризації

Швидкість навчання й коефіцієнт регуляризації мають тенденцію тягнути ваги в протилежних напрямках. Висока швидкість навчання часто віддаляє ваги від нуля, тоді як високий коефіцієнт регуляризації наближає їх до нього.

Якщо коефіцієнт регуляризації високий відносно швидкості навчання, малі ваги зазвичай формують модель, яка робить погані прогнози. І навпаки, якщо швидкість навчання висока відносно коефіцієнта регуляризації, через великі ваги модель зазвичай перенавчається.

Мета – знайти баланс між швидкістю навчання й коефіцієнтом регуляризації. Це може бути складним завданням. Найгірше те, що вам може знадобитися радикально змінити швидкість навчання після того, як ви знайдете цей невловимий баланс. Через що доведеться знову шукати ідеальний коефіцієнт регуляризації.

Довідковий центр

Складність моделі (10 хв)

Далі

Інтерпретація кривих втрат (10 хв)