Машинное обучение

Упражнение 1:

Номер 1

Что называют обучением с подкреплением?

Ответ:

(1) обучение основанное на собственном опыте;

(2) обучение с n-количеством учителей;

(3) обучение к контролирующими параметрами.

Номер 2

Какие элементы, из ниже перечисленных относятся к обучению с подкреплением?

Ответ:

(1) стратегия;

(2) функция поощрения;

(3) функция ценности;

(4) модель поведения;

(5) характеристика.

Номер 3

Что из ниже перечисленного не является элементом обучения с подкреплением?

Ответ:

(1) стратегия;

(2) функция поощрения;

(3) функция ценности;

(4) модель поведения;

(5) характеристика.

Упражнение 2:

Номер 1

Как называется метод, который использует жадные действия большую часть времени?

Ответ:

(1)

жадным методом;

(2) метод среднего выборочного;

(3) softmax-метод.

Номер 2

Как называется метод, который варьирует вероятность действий, представляемых посредством некоторой функции от предполагаемых значений ценности?

Ответ:

(1)

жадным методом;

(2) метод среднего выборочного;

(3) softmax-метод.

Номер 3

Как называется метод, который применяют для оценивания ценности?

Ответ:

(1)

жадным методом;

(2) метод среднего выборочного;

(3) softmax-метод.

Упражнение 3:

Номер 1

С какой вероятностью осуществляется выбор действия  в t-й игре?

Ответ:

(1)

;

(2)

(3)

Номер 2

Какое соотношение позволяет реализовать идею, согласно которой высокие вознаграждения должны увеличивать вероятность повторного выбора предпринятого действия?

Ответ:

(1)

;

(2)

(3)

;

(4)

(5)

Номер 3

Какое условие, из ниже перечисленных, должно выполнятся, чтобы обеспечить достаточную величину шага, позволяющую справится с начальными условиями?

Ответ:

(1)

;

(2)

;

(3)

;

(4)

при всех

.

Упражнение 4:

Номер 1

Что называют марковским процессом принятия решений?

Ответ:

(1) задание обучения с подкреплением, удовлетворяющее марковскому свойству;

(2) пространства состояний и действий, которые являются конечными;

(3) при заданном состоянии s и действии a вероятность каждого возможного следующего состояния s'.

Номер 2

Что называют финитным марковским процессом принятия решений?

Ответ:

(1) задание обучения с подкреплением, удовлетворяющее марковскому свойству;

(2) пространства состояний и действий, которые являются конечными;

(3) при заданном состоянии s и действии a вероятность каждого возможного следующего состояния s'.

Номер 3

Что называется вероятностями перехода?

Ответ:

(1) задание обучения с подкреплением, удовлетворяющее марковскому свойству;

(2) пространства состояний и действий, которые являются конечными;

(3) при заданном состоянии s и действии a вероятность каждого возможного следующего состояния s'.

Упражнение 5:

Номер 1

Какую функцию называют функцией ценности состояния для стратегии ?

Ответ:

(1)

;

(2)

;

(3)

;

(4)

;

(5)

.

Номер 2

Какие ценности действий называют методами Монте-Карло?

Ответ:

(1)

;

(2)

;

(3)

;

(4)

;

(5)

.

Номер 3

Какую функцию называют функцией ценности действия для стратегии ?

Ответ:

(1)

;

(2)

;

(3)

;

(4)

;

(5)

.

Упражнение 6:

Номер 1

Предположим, что требуется оценить величину , имея набор эпизодов, полученных при применении стратегии  и прохождении через состояние s. Как тогда будет называться каждое появление состояния s в эпизоде?

Ответ:

(1) посещение s;

(2) первое посещение;

(3) перебор состояния s;

(4) действие.

Номер 2

Какой метод оценивает  как среднее значение выгод, соответствующих всем посещениям s в некоторой совокупности эпизодов?

Ответ:

(1) МК - метод всех посещений;

(2) МК - метод первого посещения;

(3) метод поддерживающего изучения;

(4) МК - метод классической итерации.

Номер 3

Какой метод усредняет выгоды, соответствующие только первым посещениям s?

Ответ:

(1) МК - метод всех посещений;

(2) МК - метод первого посещения;

(3) метод поддерживающего изучения;

(4) МК - метод классической итерации.

Упражнение 7:

Номер 1

Какая форма будет называться Q-обучением?

Ответ:

(1)

;

(2)

;

(3)

.

Номер 2

Какая форма является TD-ошибкой?

Ответ:

(1)

;

(2)

;

(3)

.

Номер 3

Какую величину называют относительной ценностью?

Ответ:

(1)

;

(2)

;

(3)

.

Упражнение 8:

Номер 1

Какая идея, из ниже перечисленных, описывает идею алгоритма ?

Ответ:

(1) применение math

- меода прогнозирования, к парам состояние - действие вместо просто действий;

(2) принимать в расчет только те будущие действия, которые предшествуют следующему исследовательскому действию;

(3) использовать math

алгоритм с одним следом приемлемости для каждого состояния.

Номер 2

Какая идея, из ниже перечисленных, описывает метод  Уоткинса?

Ответ:

(1) применение math

- меода прогнозирования, к парам состояние - действие вместо просто действий;

(2) принимать в расчет только те будущие действия, которые предшествуют следующему исследовательскому действию;

(3) использовать math

алгоритм с одним следом приемлемости для каждого состояния.

Номер 3

Верно ли, что метод  не принимает в расчет все будущие ситуации вплоть до конца эпизода при выполнении дублирования?

Ответ:

(1) Да

(2) Нет

Машинное обучение - тест 91