Главная / Искусственный интеллект и робототехника /
Машинное обучение / Тест 91
Машинное обучение - тест 91
Упражнение 1:
Номер 1
Что называют обучением с подкреплением?
Ответ:
 (1) обучение основанное на собственном опыте; 
 (2) обучение с n-количеством учителей; 
 (3) обучение к контролирующими параметрами. 
Номер 2
Какие элементы, из ниже перечисленных относятся к обучению с подкреплением?
Ответ:
 (1) стратегия; 
 (2) функция поощрения; 
 (3) функция ценности; 
 (4) модель поведения; 
 (5) характеристика. 
Номер 3
Что из ниже перечисленного не является элементом обучения с подкреплением?
Ответ:
 (1) стратегия; 
 (2) функция поощрения; 
 (3) функция ценности; 
 (4) модель поведения; 
 (5) характеристика. 
Упражнение 2:
Номер 1
Как называется метод, который использует жадные действия большую часть времени?
Ответ:
 
(1) жадным методом; 
 (2) метод среднего выборочного; 
 (3) softmax-метод. 
Номер 2
Как называется метод, который варьирует вероятность действий, представляемых посредством некоторой функции от предполагаемых значений ценности?
Ответ:
 
(1) жадным методом; 
 (2) метод среднего выборочного; 
 (3) softmax-метод. 
Номер 3
Как называется метод, который применяют для оценивания ценности?
Ответ:
 
(1) жадным методом; 
 (2) метод среднего выборочного; 
 (3) softmax-метод. 
Упражнение 3:
Номер 1
С какой вероятностью осуществляется выбор действия в t-й игре?
Ответ:
 
(1) ; 
 
(2)  
 
(3)  
Номер 2
Какое соотношение позволяет реализовать идею, согласно которой высокие вознаграждения должны увеличивать вероятность повторного выбора предпринятого действия?
Ответ:
 
(1) ; 
 
(2)  
 
(3) ; 
 
(4)  
 
(5)  
Номер 3
Какое условие, из ниже перечисленных, должно выполнятся, чтобы обеспечить достаточную величину шага, позволяющую справится с начальными условиями?
Ответ:
 
(1) ; 
 
(2) ; 
 
(3) ; 
 
(4) при всех
. 
Упражнение 4:
Номер 1
Что называют марковским процессом принятия решений?
Ответ:
 (1) задание обучения с подкреплением, удовлетворяющее марковскому свойству; 
 (2) пространства состояний и действий, которые являются конечными; 
 (3) при заданном состоянии s и действии a вероятность каждого возможного следующего состояния s'. 
Номер 2
Что называют финитным марковским процессом принятия решений?
Ответ:
 (1) задание обучения с подкреплением, удовлетворяющее марковскому свойству; 
 (2) пространства состояний и действий, которые являются конечными; 
 (3) при заданном состоянии s и действии a вероятность каждого возможного следующего состояния s'. 
Номер 3
Что называется вероятностями перехода?
Ответ:
 (1) задание обучения с подкреплением, удовлетворяющее марковскому свойству; 
 (2) пространства состояний и действий, которые являются конечными; 
 (3) при заданном состоянии s и действии a вероятность каждого возможного следующего состояния s'. 
Упражнение 5:
Номер 1
Какую функцию называют функцией ценности состояния для стратегии ?
Ответ:
 
(1) ; 
 
(2) ; 
 
(3) ; 
 
(4) ; 
 
(5) . 
Номер 2
Какие ценности действий называют методами Монте-Карло?
Ответ:
 
(1) ; 
 
(2) ; 
 
(3) ; 
 
(4) ; 
 
(5) . 
Номер 3
Какую функцию называют функцией ценности действия для стратегии ?
Ответ:
 
(1) ; 
 
(2) ; 
 
(3) ; 
 
(4) ; 
 
(5) . 
Упражнение 6:
Номер 1
Предположим, что требуется оценить величину , имея набор эпизодов, полученных при применении стратегии и прохождении через состояние s. Как тогда будет называться каждое появление состояния s в эпизоде?
Ответ:
 (1) посещение s; 
 (2) первое посещение; 
 (3) перебор состояния s; 
 (4) действие. 
Номер 2
Какой метод оценивает как среднее значение выгод, соответствующих всем посещениям s в некоторой совокупности эпизодов?
Ответ:
 (1) МК - метод всех посещений; 
 (2) МК - метод первого посещения; 
 (3) метод поддерживающего изучения; 
 (4) МК - метод классической итерации. 
Номер 3
Какой метод усредняет выгоды, соответствующие только первым посещениям s?
Ответ:
 (1) МК - метод всех посещений; 
 (2) МК - метод первого посещения; 
 (3) метод поддерживающего изучения; 
 (4) МК - метод классической итерации. 
Упражнение 7:
Номер 1
Какая форма будет называться Q-обучением?
Ответ:
 
(1) ; 
 
(2) ; 
 
(3) . 
Номер 2
Какая форма является TD-ошибкой?
Ответ:
 
(1) ; 
 
(2) ; 
 
(3) . 
Номер 3
Какую величину называют относительной ценностью?
Ответ:
 
(1) ; 
 
(2) ; 
 
(3) . 
Упражнение 8:
Номер 1
Какая идея, из ниже перечисленных, описывает идею алгоритма ?
Ответ:
 
(1) применение
- меода прогнозирования, к парам состояние - действие вместо просто действий; 
 (2) принимать в расчет только те будущие действия, которые предшествуют следующему исследовательскому действию; 
 
(3) использовать
алгоритм с одним следом приемлемости для каждого состояния. 
Номер 2
Какая идея, из ниже перечисленных, описывает метод Уоткинса?
Ответ:
 
(1) применение
- меода прогнозирования, к парам состояние - действие вместо просто действий; 
 (2) принимать в расчет только те будущие действия, которые предшествуют следующему исследовательскому действию; 
 
(3) использовать
алгоритм с одним следом приемлемости для каждого состояния. 
Номер 3
Верно ли, что метод не принимает в расчет все будущие ситуации вплоть до конца эпизода при выполнении дублирования?
Ответ:
 (1) Да 
 (2) Нет