игра брюс 2048
Главная / Базы данных / Алгоритмы интеллектуальной обработки больших объемов данных / Тест 3

Алгоритмы интеллектуальной обработки больших объемов данных - тест 3

Упражнение 1:
Номер 1
На электронную почту пришло письмо. Пусть X – бинарный признак, указывающий, содержит входящее письмо сочетание слов "вам оставили наследство" (=1), или нет(=0), а Y – класс письма, указывающий, спам это (=1), или нет (=0). Известно, что P(Y=1)=0,05, P(X=1|Y=1)=0,0001, P(X=1|Y=0)=0,00001, и в письме присутствует указанное словосочетание. Каким решающим правилом нужно воспользоваться – максимального правдоподобия (ML) или апостериорного максимума (MAP), чтобы определить, пришедшее письмо – спам или нет:

Ответ:

 (1) ML: письмо не спам. 

 (2) ML: письмо - спам. 

 (3) MAP: письмо не спам. 

 (4) MAP: письмо - спам. 

 (5) Ни ML, ни MAP применить нельзя. 


Номер 2
Укажите достоинства иерархической кластеризации:

Ответ:

 (1) Разнообразие критериев 

 (2) Любые К из коробки 

 (3) Выявляют более высокую устойчивость по отношению к шумам и выбросам, некорректному выбору метрики, включению незначимых переменных в набор, участвующий в кластеризации 

 (4) Несферические кластеры 


Упражнение 2:
Номер 1
На плоскости даны 6 точек с координатами A(1;1), B(2;2), C(3;2), D(3;4), E(4;5), F(5;4). Осуществите алгоритм иерархической агломеративной кластеризации. Расстояние между кластерами определите как полную связь (complete linkage). Определите точку, объединившуюся последней:

Ответ:

 (1)

 (2)

 (3)

 (4)

 (5)

 (6)


Номер 2
Выберите ситуацию, при кластеризации которой, НЕ используется метод DBSCAN:

Ответ:

 (1) Кластеризация домов в Сан-Франциско; 

 (2) Кластеризация царства животных; 

 (3) Выделение топ 10 используемых пользователями доменов; 


Упражнение 3:
Номер 1
На плоскости даны 6 точек с координатами A(1;1), B(2;2), C(3;2), D(3;4), E(4;5), F(5;4). Осуществите алгоритм иерархической агломеративной кластеризации вплоть до момента, когда сформируются два кластера (два кластера объединять в один уже не нужно). Расстояние между кластерами определите как полную связь (complete linkage). Вычислите средний силуэт (silhouette) для всех 6 точек, используя евклидову метрику, с точностью до одного знака после запятой:

Ответ:

 0,5 


Номер 2
При больших наборах данных MAP, какой из алгоритмов (мaximum likelihood, maximum a posteriori) будет эффективнее при условии нахождении глобальных максимумов?

Ответ:

 (1) мaximum likelihood эффективнее 

 (2) результаты обоих алгоритмов равнозначны 

 (3) оба алгоритма не эффективны 

 (4) maximum a posteriori эффективнее 


Упражнение 4:
Номер 1
Какие подходы иерархической кластеризации вы знаете?

Ответ:

 (1) Агломеративный 

 (2) Классификационный 

 (3) Дивизионный 

 (4) Разделительный 


Номер 2
Выберите составляющие шаги для агломеративного подхода в иерархической кластеризации ?

Ответ:

 (1) начинается с ситуации, когда каждый объект отдельный - кластер 

 (2) на каждом шаге совмещаем два наиболее близких кластера 

 (3) на каждом шаге разделяем два , один из кластеров пополам 

 (4) останавливаемся, когда получаем требуемое количество или единственный кластер 

 (5) останавливаемся, когда получаем требуемое количество или N кластеров 


Упражнение 5:
Номер 1
Основной минус иерархической кластеризации

Ответ:

 (1) В результате получаются несферические кластеры 

 (2) В результате получается более одного кластера 

 (3) Требуется много вычислительных ресурсов 


Номер 2
Для использования алгоритмов иерархической кластеризации текста, какие подходы существуют для выбора "типичного" представителя - кластроида в каждом из кластеров ?

Ответ:

 (1) минимизируем сумму расстояний до других объектов к кластере 

 (2) минимизируем сумму квадратов расстояний до других объектов к кластере 

 (3) минимизируем сумму порядков расстояний до других объектов к кластере 

 (4) минимизируем максимальное расстояние до других объектов к кластере 


Упражнение 6:
Номер 1
На чем основана кластеризация DBSCAN?

Ответ:

 (1) На отсутствии шумов в наборе данных 

 (2) На плотности объектов 

 (3) На выявлении граничных объектов 

 (4) На расширении кластеров 


Номер 2
При каких условиях подход Maximum a posteriori (MAP) выигрывает перед Maximum Likelihood (ML)

Ответ:

 (1) маленький набор данных 

 (2) возможность из коробки контролировать точность модели 

 (3) Проще реализация 

 (4) Проще натренировать 


Упражнение 7:
Номер 1
Иерархические дивизимные методы характеризуются следующим:

Ответ:

 (1) Делением одного кластера на меньшие кластеры, в результате образуется последовательность расщепляющих групп; 

 (2) Последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров; 

 (3) В зависимости от исследуемого объекта возможно как деление, так и объединение групп; 


Номер 2
Назовите основные подходы иерархической кластеризации

Ответ:

 (1) корреляционный 

 (2) агломеративный 

 (3) дивизивный 

 (4) дисперсионный 


Номер 3
Назовите основные плюсы иерархической кластеризации

Ответ:

 (1) могут получаться несферические кластеры 

 (2) разнообразные виды расстояния между кластерами 

 (3) любые К из коробки 

 (4) не требует много ресурсов 




Главная / Базы данных / Алгоритмы интеллектуальной обработки больших объемов данных / Тест 3