AI Research Seminars
Abstrakt:
Prezentacja będzie przeglądem różnych metod poprawiania skuteczności trenowanych sieci neuronowych, opublikowanych w ciągu ostatnich dwóch lat. Większość z tych metod nie wymaga ingerencji w architekturę sieci i jest łatwa do zaimplementowania. W trakcie prezentacji będę chciał przedstawić motywacje jakimi kierowali się autorzy omawianych metod oraz jak zaimplementować dany algorytm w praktyce. Poruszę m.in. następujące tematy (przepraszam za brzydkie spolszczenia):
- dobór wartość kroku uczenia (learning rate) w zależności od rozmiaru `batcha`,
- jak dobrać początkową wartość kroku uczenia,
- czym jest AdamW i dlaczego ma on sens,
- czym jest ZeroInit i czy można trenować duże sieci neuronowe bez normalizacji aktywacji za pomocą np. BatchNorm,
- opowiem o cyklicznych `schedulerach` kroku uczącego,
- czym jest Mixup, Label Smoothing czy Shake-Shake regularizer,
- i wiele innych ...
Wszystkie wymienione metody są bardzo proste w koncepcji i, przede wszystkim, łatwe do przetestowania na własnych problemach.
Poziom trudności
Poziom trudności prezentacji oceniam na łatwy. Prezentacja będzie miała charakter przeglądowy i nie będziemy wchodzić w skomplikowane detale techniczne. W trakcie prezentacji będę zakładał jednak, że słuchacz wie czym są sieci neuronowe i zejście gradientowe tj. zna i rozumie podstawy metod Deep Learning i uczenia sieci neuronowych.
Czego się nauczysz?
- czym są wymienione wyżej techniki i jak ich użyć w praktyce,
- postaram się też opowiedzieć kiedy z takich technik warto korzystać a kiedy nie.