Difference between revisions of "Week 7"
From Research management course
Line 5: | Line 5: | ||
# таблица сравнения моделей (пусть даже не до конц заполненная) | # таблица сравнения моделей (пусть даже не до конц заполненная) | ||
− | == E: Error analysis == | + | == E: Error analysis == |
+ | == E: Error analysis == | ||
+ | Запустить базовый эксперимент, проанализировать его результаты. | ||
+ | === Цель анализа === | ||
+ | Построить таблицу сравнения различных моделей на нескольких выборках согласно набору критериев качества. Таблица модели-выборки-критерии и нарисовать зависимость функции потерь или критерия качества от влияющих на эту функцию факторов. Например, от сложности модели, от шага итерации оптимизации, от дисперсии параметров. | ||
+ | Анализ ошибки в вычислительных экспериментах — это анализ изменения значений функции ошибки при изменении состава выборки (или при других изменениях условий эксплуатации модели). | ||
+ | |||
+ | === Начальные требования для анализа == | ||
+ | # Поставлена задача оптимизации параметров. | ||
+ | # Задана стратегия разбиения скользящего контроля. | ||
+ | # Задан набор внешних (эксплуатационных) критериев качества модели. | ||
+ | # Для набора разбиений получен | ||
+ | #* набор значений векторов оптимальных параметров, | ||
+ | #* набор значений функции ошибки на обучении и на контроле. | ||
+ | # Получен набор значений внешних критериев на обучении и контроле. | ||
+ | |||
+ | Анализ ошибки содержит следующие базовые [http://www.machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0_%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D1%85_%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7 статистические тесты]]. | ||
+ | # Анализ состава выборки: | ||
+ | ## анализ [[Простая выборка|простоты выборки]] по отдельным признакам (гистограммы признаков), | ||
+ | ## анализ [http://www.machinelearning.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%BC%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BA%D0%BE%D0%BB%D0%BB%D0%B8%D0%BD%D0%B5%D0%B0%D1%80%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%28%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D1%80%29 мультикоррелированности] признаков, в частности анализ [http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D0%B2%D0%B0%D1%80%D0%B8%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B0%D1%82%D1%80%D0%B8%D1%86%D0%B0 ковариационных матриц] (вычисление [http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D1%8D%D1%84%D1%84%D0%B8%D1%86%D0%B8%D0%B5%D0%BD%D1%82_%D0%B4%D0%B5%D1%82%D0%B5%D1%80%D0%BC%D0%B8%D0%BD%D0%B0%D1%86%D0%B8%D0%B8 коэффициента детерминации <tex>R^2</tex>], [http://www.machinelearning.ru/wiki/index.php?title=VIF фактора инфляции дисперсии VIF], визуализация результатов [http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%91%D0%B5%D0%BB%D1%81%D0%BB%D0%B8 метода Белсли], в частности, при [http://www.machinelearning.ru/wiki/index.php?title=%D0%98%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D0%B0_%D0%91%D0%B5%D0%BB%D1%81%D0%BB%D0%B8_%D0%B4%D0%BB%D1%8F_%D0%BF%D1%80%D0%BE%D1%80%D0%B5%D0%B6%D0%B8%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_%D0%BF%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%BE%D0%B2 изменении состава признаков], [https://ru.wikipedia.org/wiki/%D0%A4%D0%B0%D0%BA%D1%82%D0%BE%D1%80%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7 факторного анализа]), | ||
+ | ## тест [http://strijov.com/papers/AduenkoObjectSelection_RV.pdf наличия выбросов] в выборке (визуализация изменения функции ошибки при исключении выбросов), | ||
+ | ## тест [http://www.machinelearning.ru/wiki/images/0/03/Neychev2016BSThesis.pdf наличия мультимоделей] (снижение ошибки при, например, использовании стратегии бустинга) | ||
+ | ## оценка [http://strijov.com/papers/MotrenkoStrijovWeber2012SampleSize_ICACM.pdf необходимой мощности выборки] (по оси абсцисс — число объектов, по оси ординат — ошибка на обучении и ее стандартное отклонение), | ||
+ | ## оценка необходимого числа признаков (по оси абсцисс — последовательно добавляемые признаки; признаки добавляются, например, по убыванию скорости изменения ошибки — т. н. ускорение и торможение ошибки)). | ||
+ | # Анализ дисперсии параметров и функции ошибки | ||
+ | ## анализ стандартного отклонения функции ошибки (внутреннего критерия) и внешних критериев (в частности, визуализация ROC — обучение и контроль на каждом из разбиений), | ||
+ | ## анализ изменения функции ошибки на итерациях оптимизации (ось абсцисс — итерации, ось ординат функция ошибки на обучении, контроле и ее стандартное отклонение), | ||
+ | ## анализ изменения параметров и гиперпараметров модели (по оси абсцисс — итерации, по оси ординат — набор параметров, лапша и их стандартные отклонения или гипер-параметры), | ||
+ | ## анализ изменения параметров и функций ошибки при изменении структурных параметров или регуляризаторов (они по оси абсцисс, по оси ординат — не забываем о стандартном отклонении, получаемом скользящим контролем). | ||
+ | # Сложность алгоритма оптимизации функции ошибки в зависимости от объема выборки | ||
+ | ## теоретическая, | ||
+ | ## эмпирическая, | ||
+ | ## аппроксимация эмпирической функции теоретической (по оси абсцисс — объем выборки, число признаков, число кластеров). | ||
+ | # Анализ свойств модели с помощью внешних критериев, учет возможных ограничений на параметры и структуру модели | ||
+ | ## построение парето-оптимального фронта множества моделей, из которых производится выбор. | ||
==Resources== | ==Resources== | ||
* [Video for week 7]. | * [Video for week 7]. | ||
* [Slides for week 7]. | * [Slides for week 7]. |
Revision as of 00:12, 25 March 2021
Make the error and quality analysis. Finalise the computational experiment.
Формальный результат:
- график с анализом ошибки (например, кривая обучения или зависимость точности от сложности и дисперсия функции ошибки)
- таблица сравнения моделей (пусть даже не до конц заполненная)
Contents
E: Error analysis
E: Error analysis
Запустить базовый эксперимент, проанализировать его результаты.
Цель анализа
Построить таблицу сравнения различных моделей на нескольких выборках согласно набору критериев качества. Таблица модели-выборки-критерии и нарисовать зависимость функции потерь или критерия качества от влияющих на эту функцию факторов. Например, от сложности модели, от шага итерации оптимизации, от дисперсии параметров.
Анализ ошибки в вычислительных экспериментах — это анализ изменения значений функции ошибки при изменении состава выборки (или при других изменениях условий эксплуатации модели).
= Начальные требования для анализа
- Поставлена задача оптимизации параметров.
- Задана стратегия разбиения скользящего контроля.
- Задан набор внешних (эксплуатационных) критериев качества модели.
- Для набора разбиений получен
- набор значений векторов оптимальных параметров,
- набор значений функции ошибки на обучении и на контроле.
- Получен набор значений внешних критериев на обучении и контроле.
Анализ ошибки содержит следующие базовые статистические тесты].
- Анализ состава выборки:
- анализ простоты выборки по отдельным признакам (гистограммы признаков),
- анализ мультикоррелированности признаков, в частности анализ ковариационных матриц (вычисление коэффициента детерминации <tex>R^2</tex>, фактора инфляции дисперсии VIF, визуализация результатов метода Белсли, в частности, при изменении состава признаков, факторного анализа),
- тест наличия выбросов в выборке (визуализация изменения функции ошибки при исключении выбросов),
- тест наличия мультимоделей (снижение ошибки при, например, использовании стратегии бустинга)
- оценка необходимой мощности выборки (по оси абсцисс — число объектов, по оси ординат — ошибка на обучении и ее стандартное отклонение),
- оценка необходимого числа признаков (по оси абсцисс — последовательно добавляемые признаки; признаки добавляются, например, по убыванию скорости изменения ошибки — т. н. ускорение и торможение ошибки)).
- Анализ дисперсии параметров и функции ошибки
- анализ стандартного отклонения функции ошибки (внутреннего критерия) и внешних критериев (в частности, визуализация ROC — обучение и контроль на каждом из разбиений),
- анализ изменения функции ошибки на итерациях оптимизации (ось абсцисс — итерации, ось ординат функция ошибки на обучении, контроле и ее стандартное отклонение),
- анализ изменения параметров и гиперпараметров модели (по оси абсцисс — итерации, по оси ординат — набор параметров, лапша и их стандартные отклонения или гипер-параметры),
- анализ изменения параметров и функций ошибки при изменении структурных параметров или регуляризаторов (они по оси абсцисс, по оси ординат — не забываем о стандартном отклонении, получаемом скользящим контролем).
- Сложность алгоритма оптимизации функции ошибки в зависимости от объема выборки
- теоретическая,
- эмпирическая,
- аппроксимация эмпирической функции теоретической (по оси абсцисс — объем выборки, число признаков, число кластеров).
- Анализ свойств модели с помощью внешних критериев, учет возможных ограничений на параметры и структуру модели
- построение парето-оптимального фронта множества моделей, из которых производится выбор.
Resources
- [Video for week 7].
- [Slides for week 7].