Difference between revisions of "Week 7"

From Research management course
Jump to: navigation, search
Line 5: Line 5:
 
# таблица сравнения моделей (пусть даже не до конц заполненная)
 
# таблица сравнения моделей (пусть даже не до конц заполненная)
  
== E: Error analysis ==  
+
== E: Error analysis ==
 +
== E: Error analysis ==
 +
Запустить базовый эксперимент, проанализировать его результаты.
 +
=== Цель анализа ===
 +
Построить таблицу сравнения различных моделей на нескольких выборках согласно набору критериев качества. Таблица модели-выборки-критерии и нарисовать зависимость функции потерь или критерия качества от влияющих на эту функцию факторов. Например, от сложности модели, от шага итерации оптимизации, от дисперсии параметров.
  
 +
Анализ ошибки в вычислительных экспериментах — это анализ изменения значений функции ошибки при изменении состава выборки (или при других изменениях условий эксплуатации модели).
 +
 +
=== Начальные требования для анализа ==
 +
# Поставлена задача оптимизации параметров.
 +
# Задана стратегия разбиения скользящего контроля.
 +
# Задан набор внешних (эксплуатационных) критериев качества модели.
 +
# Для набора разбиений получен
 +
#* набор значений векторов оптимальных параметров,
 +
#* набор значений функции ошибки на обучении и на контроле.
 +
# Получен набор значений внешних критериев на обучении и контроле.
 +
 +
Анализ ошибки содержит следующие базовые [http://www.machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0_%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D1%85_%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7 статистические тесты]].
 +
# Анализ состава выборки:
 +
## анализ [[Простая выборка|простоты выборки]] по отдельным признакам (гистограммы признаков),
 +
## анализ [http://www.machinelearning.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%BC%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BA%D0%BE%D0%BB%D0%BB%D0%B8%D0%BD%D0%B5%D0%B0%D1%80%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%28%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D1%80%29 мультикоррелированности] признаков, в частности анализ [http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D0%B2%D0%B0%D1%80%D0%B8%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B0%D1%82%D1%80%D0%B8%D1%86%D0%B0 ковариационных матриц] (вычисление [http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D1%8D%D1%84%D1%84%D0%B8%D1%86%D0%B8%D0%B5%D0%BD%D1%82_%D0%B4%D0%B5%D1%82%D0%B5%D1%80%D0%BC%D0%B8%D0%BD%D0%B0%D1%86%D0%B8%D0%B8 коэффициента детерминации <tex>R^2</tex>], [http://www.machinelearning.ru/wiki/index.php?title=VIF фактора инфляции дисперсии VIF], визуализация результатов [http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%91%D0%B5%D0%BB%D1%81%D0%BB%D0%B8 метода Белсли], в частности, при [http://www.machinelearning.ru/wiki/index.php?title=%D0%98%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D0%B0_%D0%91%D0%B5%D0%BB%D1%81%D0%BB%D0%B8_%D0%B4%D0%BB%D1%8F_%D0%BF%D1%80%D0%BE%D1%80%D0%B5%D0%B6%D0%B8%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_%D0%BF%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%BE%D0%B2 изменении состава признаков], [https://ru.wikipedia.org/wiki/%D0%A4%D0%B0%D0%BA%D1%82%D0%BE%D1%80%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7 факторного анализа]),
 +
## тест [http://strijov.com/papers/AduenkoObjectSelection_RV.pdf наличия выбросов] в выборке (визуализация изменения функции ошибки при исключении выбросов),
 +
## тест [http://www.machinelearning.ru/wiki/images/0/03/Neychev2016BSThesis.pdf наличия мультимоделей] (снижение ошибки при, например, использовании стратегии бустинга)
 +
## оценка [http://strijov.com/papers/MotrenkoStrijovWeber2012SampleSize_ICACM.pdf необходимой мощности выборки] (по оси абсцисс&nbsp;— число объектов, по оси ординат&nbsp;— ошибка на обучении и ее стандартное отклонение),
 +
## оценка необходимого числа признаков (по оси абсцисс&nbsp;— последовательно добавляемые признаки; признаки добавляются, например, по убыванию скорости изменения ошибки&nbsp;— т.&nbsp;н. ускорение и торможение ошибки)).
 +
# Анализ дисперсии параметров и функции ошибки
 +
## анализ стандартного отклонения функции ошибки (внутреннего критерия) и внешних критериев (в частности, визуализация ROC — обучение и контроль на каждом из разбиений),
 +
## анализ изменения функции ошибки на итерациях оптимизации (ось абсцисс&nbsp;— итерации, ось ординат функция ошибки на обучении, контроле и ее стандартное отклонение),
 +
## анализ изменения параметров и гиперпараметров модели (по оси абсцисс&nbsp;— итерации, по оси ординат&nbsp;— набор параметров, лапша и их стандартные отклонения или гипер-параметры),
 +
## анализ изменения параметров и функций ошибки при изменении структурных параметров или регуляризаторов (они по оси абсцисс, по оси ординат&nbsp;— не забываем о стандартном отклонении, получаемом скользящим контролем).
 +
# Сложность алгоритма оптимизации функции ошибки в зависимости от объема выборки
 +
## теоретическая,
 +
## эмпирическая,
 +
## аппроксимация эмпирической функции теоретической (по оси абсцисс&nbsp;— объем выборки, число признаков, число кластеров).
 +
# Анализ свойств модели с помощью внешних критериев, учет возможных ограничений на параметры и структуру модели
 +
## построение парето-оптимального фронта множества моделей, из которых производится выбор.
  
 
==Resources==
 
==Resources==
 
* [Video for week 7].
 
* [Video for week 7].
 
* [Slides for week 7].
 
* [Slides for week 7].

Revision as of 00:12, 25 March 2021

Make the error and quality analysis. Finalise the computational experiment.

Формальный результат:

  1. график с анализом ошибки (например, кривая обучения или зависимость точности от сложности и дисперсия функции ошибки)
  2. таблица сравнения моделей (пусть даже не до конц заполненная)

E: Error analysis

E: Error analysis

Запустить базовый эксперимент, проанализировать его результаты.

Цель анализа

Построить таблицу сравнения различных моделей на нескольких выборках согласно набору критериев качества. Таблица модели-выборки-критерии и нарисовать зависимость функции потерь или критерия качества от влияющих на эту функцию факторов. Например, от сложности модели, от шага итерации оптимизации, от дисперсии параметров.

Анализ ошибки в вычислительных экспериментах — это анализ изменения значений функции ошибки при изменении состава выборки (или при других изменениях условий эксплуатации модели).

= Начальные требования для анализа

  1. Поставлена задача оптимизации параметров.
  2. Задана стратегия разбиения скользящего контроля.
  3. Задан набор внешних (эксплуатационных) критериев качества модели.
  4. Для набора разбиений получен
    • набор значений векторов оптимальных параметров,
    • набор значений функции ошибки на обучении и на контроле.
  5. Получен набор значений внешних критериев на обучении и контроле.

Анализ ошибки содержит следующие базовые статистические тесты].

  1. Анализ состава выборки:
    1. анализ простоты выборки по отдельным признакам (гистограммы признаков),
    2. анализ мультикоррелированности признаков, в частности анализ ковариационных матриц (вычисление коэффициента детерминации <tex>R^2</tex>, фактора инфляции дисперсии VIF, визуализация результатов метода Белсли, в частности, при изменении состава признаков, факторного анализа),
    3. тест наличия выбросов в выборке (визуализация изменения функции ошибки при исключении выбросов),
    4. тест наличия мультимоделей (снижение ошибки при, например, использовании стратегии бустинга)
    5. оценка необходимой мощности выборки (по оси абсцисс — число объектов, по оси ординат — ошибка на обучении и ее стандартное отклонение),
    6. оценка необходимого числа признаков (по оси абсцисс — последовательно добавляемые признаки; признаки добавляются, например, по убыванию скорости изменения ошибки — т. н. ускорение и торможение ошибки)).
  2. Анализ дисперсии параметров и функции ошибки
    1. анализ стандартного отклонения функции ошибки (внутреннего критерия) и внешних критериев (в частности, визуализация ROC — обучение и контроль на каждом из разбиений),
    2. анализ изменения функции ошибки на итерациях оптимизации (ось абсцисс — итерации, ось ординат функция ошибки на обучении, контроле и ее стандартное отклонение),
    3. анализ изменения параметров и гиперпараметров модели (по оси абсцисс — итерации, по оси ординат — набор параметров, лапша и их стандартные отклонения или гипер-параметры),
    4. анализ изменения параметров и функций ошибки при изменении структурных параметров или регуляризаторов (они по оси абсцисс, по оси ординат — не забываем о стандартном отклонении, получаемом скользящим контролем).
  3. Сложность алгоритма оптимизации функции ошибки в зависимости от объема выборки
    1. теоретическая,
    2. эмпирическая,
    3. аппроксимация эмпирической функции теоретической (по оси абсцисс — объем выборки, число признаков, число кластеров).
  4. Анализ свойств модели с помощью внешних критериев, учет возможных ограничений на параметры и структуру модели
    1. построение парето-оптимального фронта множества моделей, из которых производится выбор.

Resources

  • [Video for week 7].
  • [Slides for week 7].