Difference between revisions of "Week 7"
From Research management course
Line 46: | Line 46: | ||
# Критерии качества линейных моделей [http://strijov.com/papers/Katrutsa2014TestGenerationEn.pdf раз], [http://strijov.com/papers/Katrutsa2016QPFeatureSelection.pdf два]. | # Критерии качества линейных моделей [http://strijov.com/papers/Katrutsa2014TestGenerationEn.pdf раз], [http://strijov.com/papers/Katrutsa2016QPFeatureSelection.pdf два]. | ||
# Коллекция графиков, ассорти[https://sourceforge.net/p/mvr/code/HEAD/tree/lectures/MachineLearningResearch/ComputationalExperiment/fig_compilation_slides.pdf?format=raw]. | # Коллекция графиков, ассорти[https://sourceforge.net/p/mvr/code/HEAD/tree/lectures/MachineLearningResearch/ComputationalExperiment/fig_compilation_slides.pdf?format=raw]. | ||
− | + | # 11 Important Model Evaluation Techniques Everyone Should Know (datacentral)[https://www.datasciencecentral.com/profiles/blogs/7-important-model-evaluation-error-metrics-everyone-should-know]. | |
− | + | # How Bayesian Inference Works (datacentral)[https://www.datasciencecentral.com/profiles/blogs/how-bayesian-inference-works]. |
Revision as of 00:30, 25 March 2021
Make the error and quality analysis. Finalise the computational experiment.
Формальный результат:
- график с анализом ошибки (например, кривая обучения или зависимость точности от сложности и дисперсия функции ошибки)
- таблица сравнения моделей (пусть даже не до конц заполненная)
E: Error analysis
Запустить базовый эксперимент, проанализировать его результаты.
Цель анализа
Построить таблицу сравнения различных моделей на нескольких выборках согласно набору критериев качества. Таблица модели-выборки-критерии и нарисовать зависимость функции потерь или критерия качества от влияющих на эту функцию факторов. Например, от сложности модели, от шага итерации оптимизации, от дисперсии параметров.
Анализ ошибки в вычислительных экспериментах — это анализ изменения значений функции ошибки при изменении состава выборки (или при других изменениях условий эксплуатации модели).
Начальные требования для анализа
- Поставлена задача оптимизации параметров.
- Задана стратегия разбиения скользящего контроля.
- Задан набор внешних (эксплуатационных) критериев качества модели.
- Для набора разбиений получен
- набор значений векторов оптимальных параметров,
- набор значений функции ошибки на обучении и на контроле.
- Получен набор значений внешних критериев на обучении и контроле.
Анализ ошибки содержит следующие базовые статистические тесты].
- Анализ состава выборки:
- анализ простоты выборки по отдельным признакам (гистограммы признаков),
- анализ мультикоррелированности признаков, в частности анализ ковариационных матриц (вычисление коэффициента детерминации <tex>R^2</tex>, фактора инфляции дисперсии VIF, визуализация результатов метода Белсли, в частности, при изменении состава признаков, факторного анализа),
- тест наличия выбросов в выборке (визуализация изменения функции ошибки при исключении выбросов),
- тест наличия мультимоделей (снижение ошибки при, например, использовании стратегии бустинга)
- оценка необходимой мощности выборки (по оси абсцисс — число объектов, по оси ординат — ошибка на обучении и ее стандартное отклонение),
- оценка необходимого числа признаков (по оси абсцисс — последовательно добавляемые признаки; признаки добавляются, например, по убыванию скорости изменения ошибки — т. н. ускорение и торможение ошибки)).
- Анализ дисперсии параметров и функции ошибки
- анализ стандартного отклонения функции ошибки (внутреннего критерия) и внешних критериев (в частности, визуализация ROC — обучение и контроль на каждом из разбиений),
- анализ изменения функции ошибки на итерациях оптимизации (ось абсцисс — итерации, ось ординат функция ошибки на обучении, контроле и ее стандартное отклонение),
- анализ изменения параметров и гиперпараметров модели (по оси абсцисс — итерации, по оси ординат — набор параметров, лапша и их стандартные отклонения или гипер-параметры),
- анализ изменения параметров и функций ошибки при изменении структурных параметров или регуляризаторов (они по оси абсцисс, по оси ординат — не забываем о стандартном отклонении, получаемом скользящим контролем).
- Сложность алгоритма оптимизации функции ошибки в зависимости от объема выборки
- теоретическая,
- эмпирическая,
- аппроксимация эмпирической функции теоретической (по оси абсцисс — объем выборки, число признаков, число кластеров).
- Анализ свойств модели с помощью внешних критериев, учет возможных ограничений на параметры и структуру модели
- построение парето-оптимального фронта множества моделей, из которых производится выбор.
Resources
- [Video for week 7].
- [Slides for week 7].