Главная / Базы данных /
Алгоритмы интеллектуальной обработки больших объемов данных / Тест 3
Алгоритмы интеллектуальной обработки больших объемов данных - тест 3
Упражнение 1:
Номер 1
На электронную почту пришло письмо. Пусть X – бинарный признак, указывающий, содержит входящее письмо сочетание слов "вам оставили наследство" (=1), или нет(=0), а Y – класс письма, указывающий, спам это (=1), или нет (=0). Известно, что P(Y=1)=0,05, P(X=1|Y=1)=0,0001, P(X=1|Y=0)=0,00001, и в письме присутствует указанное словосочетание. Каким решающим правилом нужно воспользоваться – максимального правдоподобия (ML) или апостериорного максимума (MAP), чтобы определить, пришедшее письмо – спам или нет:
Ответ:
 (1) ML: письмо не спам. 
 (2) ML: письмо - спам. 
 (3) MAP: письмо не спам. 
 (4) MAP: письмо - спам. 
 (5) Ни ML, ни MAP применить нельзя. 
Номер 2
Укажите достоинства иерархической кластеризации:
Ответ:
 (1) Разнообразие критериев 
 (2) Любые К из коробки 
 (3) Выявляют более высокую устойчивость по отношению к шумам и выбросам, некорректному выбору метрики, включению незначимых переменных в набор, участвующий в кластеризации 
 (4) Несферические кластеры 
Упражнение 2:
Номер 1
На плоскости даны 6 точек с координатами A(1;1), B(2;2), C(3;2), D(3;4), E(4;5), F(5;4). Осуществите алгоритм иерархической агломеративной кластеризации. Расстояние между кластерами определите как полную связь (complete linkage). Определите точку, объединившуюся последней:
Ответ:
 (1) A 
 (2) B 
 (3) C 
 (4) D 
 (5) E 
 (6) F 
Номер 2
Выберите ситуацию, при кластеризации которой, НЕ используется метод DBSCAN:
Ответ:
 (1) Кластеризация домов в Сан-Франциско; 
 (2) Кластеризация царства животных; 
 (3) Выделение топ 10 используемых пользователями доменов; 
Упражнение 3:
Номер 1
На плоскости даны 6 точек с координатами A(1;1), B(2;2), C(3;2), D(3;4), E(4;5), F(5;4). Осуществите алгоритм иерархической агломеративной кластеризации вплоть до момента, когда сформируются два кластера (два кластера объединять в один уже не нужно). Расстояние между кластерами определите как полную связь (complete linkage). Вычислите средний силуэт (silhouette) для всех 6 точек, используя евклидову метрику, с точностью до одного знака после запятой:
Ответ:
 0,5 
Номер 2
При больших наборах данных MAP, какой из алгоритмов (мaximum likelihood, maximum a posteriori) будет эффективнее при условии нахождении глобальных максимумов?
Ответ:
 (1) мaximum likelihood эффективнее 
 (2) результаты обоих алгоритмов равнозначны 
 (3) оба алгоритма не эффективны 
 (4) maximum a posteriori эффективнее 
Упражнение 4:
Номер 1
Какие подходы иерархической кластеризации вы знаете?
Ответ:
 (1) Агломеративный 
 (2) Классификационный 
 (3) Дивизионный 
 (4) Разделительный 
Номер 2
Выберите составляющие шаги для агломеративного подхода в иерархической кластеризации ?
Ответ:
 (1) начинается с ситуации, когда каждый объект отдельный - кластер 
 (2) на каждом шаге совмещаем два наиболее близких кластера 
 (3) на каждом шаге разделяем два , один из кластеров пополам 
 (4) останавливаемся, когда получаем требуемое количество или единственный кластер 
 (5) останавливаемся, когда получаем требуемое количество или N кластеров 
Упражнение 5:
Номер 1
Основной минус иерархической кластеризации
Ответ:
 (1) В результате получаются несферические кластеры 
 (2) В результате получается более одного кластера 
 (3) Требуется много вычислительных ресурсов 
Номер 2
Для использования алгоритмов иерархической кластеризации текста, какие подходы существуют для выбора "типичного" представителя - кластроида в каждом из кластеров ?
Ответ:
 (1) минимизируем сумму расстояний до других объектов к кластере 
 (2) минимизируем сумму квадратов расстояний до других объектов к кластере 
 (3) минимизируем сумму порядков расстояний до других объектов к кластере 
 (4) минимизируем максимальное расстояние до других объектов к кластере 
Упражнение 6:
Номер 1
На чем основана кластеризация DBSCAN?
Ответ:
 (1) На отсутствии шумов в наборе данных 
 (2) На плотности объектов 
 (3) На выявлении граничных объектов 
 (4) На расширении кластеров 
Номер 2
При каких условиях подход Maximum a posteriori (MAP) выигрывает перед Maximum Likelihood (ML)
Ответ:
 (1) маленький набор данных 
 (2) возможность из коробки контролировать точность модели 
 (3) Проще реализация 
 (4) Проще натренировать 
Упражнение 7:
Номер 1
Иерархические дивизимные методы характеризуются следующим:
Ответ:
 (1) Делением одного кластера на меньшие кластеры, в результате образуется последовательность расщепляющих групп; 
 (2) Последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров; 
 (3) В зависимости от исследуемого объекта возможно как деление, так и объединение групп; 
Номер 2
Назовите основные подходы иерархической кластеризации
Ответ:
 (1) корреляционный 
 (2) агломеративный 
 (3) дивизивный 
 (4) дисперсионный 
Номер 3
Назовите основные плюсы иерархической кластеризации
Ответ:
 (1) могут получаться несферические кластеры 
 (2) разнообразные виды расстояния между кластерами 
 (3) любые К из коробки 
 (4) не требует много ресурсов