игра брюс 2048
Главная / Базы данных / Алгоритмы интеллектуальной обработки больших объемов данных / Тест 4

Алгоритмы интеллектуальной обработки больших объемов данных - тест 4

Упражнение 1:
Номер 1
В городе N живет 1000 человек, из них 100 мошенников. За год осудили за мошенничество 80 человек, из них на самом деле реальных мошенников было 70 человек. Вычислите следующие три метрики качества борьбы с мошенничеством в городе N: верность (accuracy), полноту (recall) и точность (precision). В качестве ответа напишите среднее арифметическое трех указанных метрик с точностью до трех знаков после запятой:

Ответ:

 0,845 


Номер 2
Выберите вариант, НЕ являющийся преимуществом вероятностных моделей

Ответ:

 (1) Сильные предположения о природе данных 

 (2) Дисбаланс в выборке 

 (3) Отказ от классификации 


Упражнение 2:
Номер 1
Дана случайная величина X, принимающая 2 значения с равными вероятностями 1/2 и случайная величина Y, принимающая 8 значений с равными вероятностями 1/8. Вычислите разность между энтропией случайной величины Y и энтропией случайной величины X с точностью до целых:

Ответ:

 2 


Номер 2
Основной смысл теоремы "No free lunch theorem" заключается в следующем
Есть модель, которая является оптимальной для решений всех задач:

Ответ:

 (1) Возможно точно подобрать модель для решения любой проблемы, основываясь на предварительных вычислениях; 

 (2) Не существует единственной супермодели; 

 (3) Лучшая гипотеза данных – та, которая ведет к самому краткому их описанию; 


Упражнение 3:
Номер 1
Дано исследование самоощущения собственного материального положения среди 200 человек. 100 из них оценили свое материальное положение как "ниже среднего" ("нс"), другие 100 - как "выше среднего" ("вс"). Также эти 200 человек ответили на вопросы о наличии у них дачи, автомобиля и детей.
Дача – есть/нет. Дача есть: "нс" - 35 человек, "вс" – 75 человек.
Автомобиль – есть/нет. Автомобиль есть: "нс" – 20 человек, "вс" – 70 человек.
Дети - нет/1/больше 1. Нет детей: "нс" - 20 человек, "вс" – 40 человек; 1 ребенок: "нс" – 50 человек, "вс" – 50 человек.
Требуется построить дерево по алгоритму CART, нечистота (impurity) вычисляется по Джини. Расположите признаки в порядке убывания по качеству разбиения в корне дерева:

Ответ:

 (1) Дача, автомобиль, дети 

 (2) Дача, дети, автомобиль 

 (3) Автомобиль, дача, дети 

 (4) Автомобиль, дети, дача 

 (5) Дети, дача, автомобиль 

 (6) Дети, автомобиль, дача 


Номер 2
Уважите преимущества вероятностных моделей (дискриминативные и генеративная модели ) ?

Ответ:

 (1) отказ от классификации объектов 

 (2) дисбаланс в выборке 

 (3) вычислительная легкость 

 (4) ассамблея моделей (возможность комбинировать) 


Упражнение 4:
Номер 1
Что из этого является видом модели классификации?

Ответ:

 (1) Генеративные модели 

 (2) Дискриминантные модели 

 (3) Функции решения 

 (4) k-means 

 (5) Скользящая средняя 


Номер 2
Для оценки "натренированной" модели на эффективность ее применения, используется тестирование на независимой выборке. Какой из алгоритмов проверки "тренируется" на всем количестве данных, при условии многократного повторения?

Ответ:

 (1) кросс-валидация 

 (2) скользящий контроль по разделенным равным "кускам" выборки с тренировкой "без одного" и тестом по одному из "кусков" 

 (3) бутстреп 


Упражнение 5:
Номер 1
О чем говорит no free lunch theorem?

Ответ:

 (1) Не существует единственной лучшей модели, решающей все задачи 

 (2) Чем меньше описательных параметров модели при максимальной ее точности - тем лучше 

 (3) Количество степеней свободы модели не зависит от выбранного описательного полинома 


Номер 2
Версия какого алгоритма для построения деревьев решений использует числовые признаки как в CART, а номинальные - как в ID3 ? Ответ укажите с точность до целого значения.

Ответ:

 5 


Упражнение 6:
Номер 1
Что изображено на рисунке?
files

Ответ:

 (1) Иерархическая кластеризация 

 (2) Логическая классификация 

 (3) Дерево решений 

 (4) Алгоритм ID5 


Номер 2
Назовите типы моделей классификации в порядке убывания сложности

Ответ:

 (1) Дискриминативные-Генеративные-Функции решения 

 (2) Генеративные-Дискриминативная-Функции решения 

 (3) Генеративные-Функции решения-Дискриминативная 

 (4) Функции решения-Дискриминативные-Генеративные 


Упражнение 7:
Номер 1
Вычислить наилучшее бинарное разделение корневого узла по одному признаку, пользуясь gini impurity:
files

Ответ:

 (1) Пол; 

 (2) Образование; 

 (3) Работа; 

 (4) Косметика; 


Номер 2
Назовите плюсы использования вероятностных моделей против функций решений

Ответ:

 (1) Отказ от классификации 

 (2) Дисбаланс в выборке 

 (3) Ансамбли моделей 

 (4) Сильные предположения о природе данных 

 (5) Излишняя (вычислительная) сложность 


Номер 3
В обобщенной формуле обучения модели learning= representation +Evaluation+ optimization критериями Evaluation являются

Ответ:

 (1) constrained 

 (2) функция правдоподобия 

 (3) KL-дивергенция 

 (4) unconstrained (GD, Newton+) 

 (5) Эмпирический риск 




Главная / Базы данных / Алгоритмы интеллектуальной обработки больших объемов данных / Тест 4