Главная / Базы данных /
Алгоритмы интеллектуальной обработки больших объемов данных / Тест 4
Алгоритмы интеллектуальной обработки больших объемов данных - тест 4
Упражнение 1:
Номер 1
В городе N живет 1000 человек, из них 100 мошенников. За год осудили за мошенничество 80 человек, из них на самом деле реальных мошенников было 70 человек. Вычислите следующие три метрики качества борьбы с мошенничеством в городе N: верность (accuracy), полноту (recall) и точность (precision). В качестве ответа напишите среднее арифметическое трех указанных метрик с точностью до трех знаков после запятой:
Ответ:
 0,845 
Номер 2
Выберите вариант, НЕ являющийся преимуществом вероятностных моделей
Ответ:
 (1) Сильные предположения о природе данных 
 (2) Дисбаланс в выборке 
 (3) Отказ от классификации 
Упражнение 2:
Номер 1
Дана случайная величина X, принимающая 2 значения с равными вероятностями 1/2 и случайная величина Y, принимающая 8 значений с равными вероятностями 1/8. Вычислите разность между энтропией случайной величины Y и энтропией случайной величины X с точностью до целых:
Ответ:
 2 
Номер 2
Основной смысл теоремы "No free lunch theorem" заключается в следующем
Есть модель, которая является оптимальной для решений всех задач:
Ответ:
 (1) Возможно точно подобрать модель для решения любой проблемы, основываясь на предварительных вычислениях; 
 (2) Не существует единственной супермодели; 
 (3) Лучшая гипотеза данных – та, которая ведет к самому краткому их описанию; 
Упражнение 3:
Номер 1
Дано исследование самоощущения собственного материального положения среди 200 человек. 100 из них оценили свое материальное положение как "ниже среднего" ("нс"), другие 100 - как "выше среднего" ("вс"). Также эти 200 человек ответили на вопросы о наличии у них дачи, автомобиля и детей.
Дача – есть/нет. Дача есть: "нс" - 35 человек, "вс" – 75 человек.
Автомобиль – есть/нет. Автомобиль есть: "нс" – 20 человек, "вс" – 70 человек.
Дети - нет/1/больше 1. Нет детей: "нс" - 20 человек, "вс" – 40 человек; 1 ребенок: "нс" – 50 человек, "вс" – 50 человек.
Требуется построить дерево по алгоритму CART, нечистота (impurity) вычисляется по Джини. Расположите признаки в порядке убывания по качеству разбиения в корне дерева:
Ответ:
 (1) Дача, автомобиль, дети 
 (2) Дача, дети, автомобиль 
 (3) Автомобиль, дача, дети 
 (4) Автомобиль, дети, дача 
 (5) Дети, дача, автомобиль 
 (6) Дети, автомобиль, дача 
Номер 2
Уважите преимущества вероятностных моделей (дискриминативные и генеративная модели ) ?
Ответ:
 (1) отказ от классификации объектов 
 (2) дисбаланс в выборке 
 (3) вычислительная легкость 
 (4) ассамблея моделей (возможность комбинировать) 
Упражнение 4:
Номер 1
Что из этого является видом модели классификации?
Ответ:
 (1) Генеративные модели 
 (2) Дискриминантные модели 
 (3) Функции решения 
 (4) k-means 
 (5) Скользящая средняя 
Номер 2
Для оценки "натренированной" модели на эффективность ее применения, используется тестирование на независимой выборке. Какой из алгоритмов проверки "тренируется" на всем количестве данных, при условии многократного повторения?
Ответ:
 (1) кросс-валидация 
 (2) скользящий контроль по разделенным равным "кускам" выборки с тренировкой "без одного" и тестом по одному из "кусков" 
 (3) бутстреп 
Упражнение 5:
Номер 1
О чем говорит no free lunch theorem?
Ответ:
 (1) Не существует единственной лучшей модели, решающей все задачи 
 (2) Чем меньше описательных параметров модели при максимальной ее точности - тем лучше 
 (3) Количество степеней свободы модели не зависит от выбранного описательного полинома 
Номер 2
Версия какого алгоритма для построения деревьев решений использует числовые признаки как в CART, а номинальные - как в ID3 ? Ответ укажите с точность до целого значения.
Ответ:
 5 
Упражнение 6:
Номер 1
Что изображено на рисунке?
Ответ:
 (1) Иерархическая кластеризация 
 (2) Логическая классификация 
 (3) Дерево решений 
 (4) Алгоритм ID5 
Номер 2
Назовите типы моделей классификации в порядке убывания сложности
Ответ:
 (1) Дискриминативные-Генеративные-Функции решения 
 (2) Генеративные-Дискриминативная-Функции решения 
 (3) Генеративные-Функции решения-Дискриминативная 
 (4) Функции решения-Дискриминативные-Генеративные 
Упражнение 7:
Номер 1
Вычислить наилучшее бинарное разделение корневого узла по одному признаку, пользуясь gini impurity:
Ответ:
 (1) Пол; 
 (2) Образование; 
 (3) Работа; 
 (4) Косметика; 
Номер 2
Назовите плюсы использования вероятностных моделей против функций решений
Ответ:
 (1) Отказ от классификации 
 (2) Дисбаланс в выборке 
 (3) Ансамбли моделей 
 (4) Сильные предположения о природе данных 
 (5) Излишняя (вычислительная) сложность 
Номер 3
В обобщенной формуле обучения модели learning= representation +Evaluation+ optimization критериями Evaluation являются
Ответ:
 (1) constrained 
 (2) функция правдоподобия 
 (3) KL-дивергенция 
 (4) unconstrained (GD, Newton+) 
 (5) Эмпирический риск