Алгоритмы интеллектуальной обработки больших объемов данных

Упражнение 1:

Номер 1

На электронную почту пришло письмо. Пусть X – бинарный признак, указывающий, содержит входящее письмо сочетание слов "вам оставили наследство" (=1), или нет(=0), а Y – класс письма, указывающий, спам это (=1), или нет (=0). Известно, что P(Y=1)=0,05, P(X=1|Y=1)=0,0001, P(X=1|Y=0)=0,00001, и в письме присутствует указанное словосочетание. Каким решающим правилом нужно воспользоваться – максимального правдоподобия (ML) или апостериорного максимума (MAP), чтобы определить, пришедшее письмо – спам или нет:

Ответ:

(1) ML: письмо не спам.

(2) ML: письмо - спам.

(3) MAP: письмо не спам.

(4) MAP: письмо - спам.

(5) Ни ML, ни MAP применить нельзя.

Номер 2

Укажите достоинства иерархической кластеризации:

Ответ:

(1) Разнообразие критериев

(2) Любые К из коробки

(3) Выявляют более высокую устойчивость по отношению к шумам и выбросам, некорректному выбору метрики, включению незначимых переменных в набор, участвующий в кластеризации

(4) Несферические кластеры

Упражнение 2:

Номер 1

На плоскости даны 6 точек с координатами A(1;1), B(2;2), C(3;2), D(3;4), E(4;5), F(5;4). Осуществите алгоритм иерархической агломеративной кластеризации. Расстояние между кластерами определите как полную связь (complete linkage). Определите точку, объединившуюся последней:

Ответ:

(1) A

(2) B

(3) C

(4) D

(5) E

(6) F

Номер 2

Выберите ситуацию, при кластеризации которой, НЕ используется метод DBSCAN:

Ответ:

(1) Кластеризация домов в Сан-Франциско;

(2) Кластеризация царства животных;

(3) Выделение топ 10 используемых пользователями доменов;

Упражнение 3:

Номер 1

На плоскости даны 6 точек с координатами A(1;1), B(2;2), C(3;2), D(3;4), E(4;5), F(5;4). Осуществите алгоритм иерархической агломеративной кластеризации вплоть до момента, когда сформируются два кластера (два кластера объединять в один уже не нужно). Расстояние между кластерами определите как полную связь (complete linkage). Вычислите средний силуэт (silhouette) для всех 6 точек, используя евклидову метрику, с точностью до одного знака после запятой:

Ответ:

0,5

Номер 2

При больших наборах данных MAP, какой из алгоритмов (мaximum likelihood, maximum a posteriori) будет эффективнее при условии нахождении глобальных максимумов?

Ответ:

(1) мaximum likelihood эффективнее

(2) результаты обоих алгоритмов равнозначны

(3) оба алгоритма не эффективны

(4) maximum a posteriori эффективнее

Упражнение 4:

Номер 1

Какие подходы иерархической кластеризации вы знаете?

Ответ:

(1) Агломеративный

(2) Классификационный

(3) Дивизионный

(4) Разделительный

Номер 2

Выберите составляющие шаги для агломеративного подхода в иерархической кластеризации ?

Ответ:

(1) начинается с ситуации, когда каждый объект отдельный - кластер

(2) на каждом шаге совмещаем два наиболее близких кластера

(3) на каждом шаге разделяем два , один из кластеров пополам

(4) останавливаемся, когда получаем требуемое количество или единственный кластер

(5) останавливаемся, когда получаем требуемое количество или N кластеров

Упражнение 5:

Номер 1

Основной минус иерархической кластеризации

Ответ:

(1) В результате получаются несферические кластеры

(2) В результате получается более одного кластера

(3) Требуется много вычислительных ресурсов

Номер 2

Для использования алгоритмов иерархической кластеризации текста, какие подходы существуют для выбора "типичного" представителя - кластроида в каждом из кластеров ?

Ответ:

(1) минимизируем сумму расстояний до других объектов к кластере

(2) минимизируем сумму квадратов расстояний до других объектов к кластере

(3) минимизируем сумму порядков расстояний до других объектов к кластере

(4) минимизируем максимальное расстояние до других объектов к кластере

Упражнение 6:

Номер 1

На чем основана кластеризация DBSCAN?

Ответ:

(1) На отсутствии шумов в наборе данных

(2) На плотности объектов

(3) На выявлении граничных объектов

(4) На расширении кластеров

Номер 2

При каких условиях подход Maximum a posteriori (MAP) выигрывает перед Maximum Likelihood (ML)

Ответ:

(1) маленький набор данных

(2) возможность из коробки контролировать точность модели

(3) Проще реализация

(4) Проще натренировать

Упражнение 7:

Номер 1

Иерархические дивизимные методы характеризуются следующим:

Ответ:

(1) Делением одного кластера на меньшие кластеры, в результате образуется последовательность расщепляющих групп;

(2) Последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров;

(3) В зависимости от исследуемого объекта возможно как деление, так и объединение групп;

Номер 2

Назовите основные подходы иерархической кластеризации

Ответ:

(1) корреляционный

(2) агломеративный

(3) дивизивный

(4) дисперсионный

Номер 3

Назовите основные плюсы иерархической кластеризации

Ответ:

(1) могут получаться несферические кластеры

(2) разнообразные виды расстояния между кластерами

(3) любые К из коробки

(4) не требует много ресурсов

Алгоритмы интеллектуальной обработки больших объемов данных - тест 3