Алгоритмы интеллектуальной обработки больших объемов данных

Упражнение 1:

Номер 1

Дан единичный квадрат с координатами вершин (0;0), (0;1), (1;1), (1;0). При этом первая и третья вершины относятся к классу "-1", а вторая и четвертая – "1". Требуется построить классификатор, получающий на входе координату вершины, а на выходе дающий метку класса (задача XOR). Функция потерь определяется числом неправильно классифицированных вершин с учетом их веса. В результате применения алгоритма AdaBoost были построены три модели со следующими разделяющими границами: (1) прямая, проходящая через точки (1/2;0) и (0;1/2), (2) прямая, проходящая через точки (1/2;1) и (1;1/2), (3) прямая, проходящая через точки (1/2;1) и (0;1/2). Изначально веса вершин одинаковы и равны 1/4, далее они пересчитываются в соответствии с алгоритмом. Укажите получившиеся веса первой, второй и третьей модели соответственно:

Ответ:

(1) 1/3, 1/5, 1/7

(2) log 3, log 5, log 7

(3) 3,5,7

(4) 1/3, 1/5, 1/8

(5) log 3, log 5, log 8

(6) 3,5,8

Номер 2

Укажите достоинства алгоритма AdaBoots:

Ответ:

(1) Простота

(2) Склонен к переобучению при наличии шума в данных

(3) Имеет хорошую обобщающую способность

(4) Переобучается при малом количестве данных

Упражнение 2:

Номер 1

Дан единичный квадрат с координатами вершин (0;0), (0;1), (1;1), (1;0). При этом первая и третья вершины относятся к классу "-1", а вторая и четвертая – "1". Требуется построить классификатор, получающий на входе координату вершины, а на выходе дающий метку класса (задача XOR). Применим алгоритм градиентного бустинга (gradient boosting) с функцией потерь L(y,h)=(1/2)*(y-h)^2. Очевидно, h0(x)=const=0. Далее, выбираем в качестве a1 функцию, равную -1 левее разделяющей границы, проходящей через точки (1/2;0) и (0;1/2), и 1 в противном случае. Найдите b1 – вес функции a1 с точностью до одного знака после запятой.

Ответ:

0,5

Номер 2

Что следует предпринять, если функция, которую стараемся оптимизировать, не дифференцируема?

Ответ:

(1) Заменить гладкой аппроксимацией, в которой минимум по гладкой аппроксимации;

(2) соответствует минимуму по функции;

(3) Использование алгоритмов невозможно;

(4) Данное условиет не влияет на оптимизацию функции;

Упражнение 3:

Номер 1

Дан единичный квадрат с координатами вершин (0;0), (0;1), (1;1), (1;0). При этом первая и третья вершины относятся к классу "-1", а вторая и четвертая – "1". Требуется построить классификатор, получающий на входе координату вершины, а на выходе дающий метку класса (задача XOR). Применим алгоритм градиентного бустинга (gradient boosting) с функцией потерь L(y,h)=ln(1+exp(-2*y*h)). Очевидно, h0(x)=const=0. Далее, выбираем в качестве a1 функцию, равную -1 левее разделяющей границы, проходящей через точки (1/2;0) и (0;1/2), и 1 в противном случае. Найдите итоговый коэффициент перед функцией a1 с учетом коэффициента регуляризации (shrinkage) 0,55.

Ответ:

(1) 0,1

(2) 0,3

(3) 0,5

(4) 1,0

(5) 1,5

(6) 2,0

Номер 2

В чем состоят ключевые идеи бустинга ?

Ответ:

(1) выбранная базовая модель , дает некоторые предсказания, но не сильно настраивается под данные

(2) "слабые" базовые модели последовательно применяются к данным обучающей выборки, но при этом сами данные каждый раз несколько меняются

(3) при добавлении очередной модели a(i), предыдущие i-1, модели несколько меняются

Упражнение 4:

Номер 1

Выберите верное утверждение

Ответ:

(1) Бустинг не переобучается с увеличением числа итераций

(2) Бустинг использует только экспоненциальные базовые модели

(3) Бустинг использует веса, которые не обновляются с каждым новым построением модели

(4) Бустинг уменьшает обобщающую способность и увеличивает дисперсию

Номер 2

Факты об алгоритме бустинга. При нулевой ошибке на обучающей выборке, количество ошибок на тестовой выборке ?

Ответ:

(1) падает

(2) возрастает

(3) одинаково

Упражнение 5:

Номер 1

Укажите основные преимущества алгоритма адаптивного бустинга

Ответ:

(1) Простота алгоритма

(2) Хорошая обобщающая способность

(3) Идентифицирует шумовые объекты

(4) Не переобучается на "малом" количестве данных

(5) Накладные расходы бустинга минимальны

(6) Описывается экспонентой

(7) Минимизирует ошибку на каждом шаге

Номер 2

Выберете верное утверждение про алгоритмы бустинга :

Ответ:

(1) для бустинга лучше строить короткие композиции из слабых моделей , чем длинные из сильных

(2) бустинг лучше работает для больших обучающих выборок в ситуациях когда в данных имеются сложные зависимости

(3) алгоритмы бустига наиболее эффективны в пространстве большей размерности

Упражнение 6:

Номер 1

Выберите верные утверждения

Ответ:

(1) Стохастические методы лучше работают для коротких обучающих выборках

(2) Для бустинга лучше строить короткие композиции из сильных моделей

(3) Бэггинг наиболее эффективен, когда данных очень много

(4) Бустинг предполагает последовательное построение композиции

(5) Бустинг лучше работает для больших обучающих выборок

(6) RSM наиболее эффективен, когда количество наблюдений значительно меньше размерности этих данных

Номер 2

Укажите метод, который одновременно уменьшает смещение и дисперсию

Ответ:

(1) Беггинг

(2) Бустинг

(3) ни один из них

(4) оба метода

Упражнение 7:

Номер 1

Можно ли использовать в качестве базовых моделей линайную регрессию для алгоритма AdaBoots?

Ответ:

(1) В ряде случаев;

(2) Да, во всех случаях;

(3) Нет, невозможно;

Номер 2

Укажите не верное высказывание про алгоритм AdaBoost

Ответ:

(1) Алгоритм прост

(2) Не склонен к переобучению при наличии шума в данных

(3) Показывает хорошую обобщающую способность

(4) Имеет возможность идентификации шумовых объектов

Номер 3

Что из указанного работает лучше для больших обучающих выборок в ситуациях когда в данных имеются сложные зависимости

Ответ:

(1) Бустинг

(2) Стохастические методы

(3) RSM

(4) Все перечисленное

Алгоритмы интеллектуальной обработки больших объемов данных - тест 10