Главная / Базы данных /
Алгоритмы интеллектуальной обработки больших объемов данных / Тест 1
Алгоритмы интеллектуальной обработки больших объемов данных - тест 1
Упражнение 1:
Номер 1
Михаил получает на электронную почту в среднем 1000 писем в месяц, из них 2,44% - это спам. Известно, что среди спама слово "знакомство" встречается в 0,01% писем, а среди обычных писем в 10 раз реже. Какова вероятность того, что письмо, попавшее на почтовый ящик Михаила, в тексте которого встречается указанное слово, не является спамом? (Ответ укажите в целых процентах без знака процента.)
Ответ:
 80 
Номер 2
Выберите оптимальный параметр для следующей модели согласно принципу ML (Maximum Likelihood / Максимальное правдоподобие): "Вероятность того что идет дождь если есть тучи сильнее, чем вероятность того что идет дождь, если туч нет":
Ответ:
 (1) Падают капли 
 (2) Наличие туч 
 (3) Не видно небо 
 (4) Мокрая земля 
Упражнение 2:
Номер 1
Дома на четной стороне улицы имеют номера 2, 4, 6, … . Номер дома – это признак:
Ответ:
 (1) Бинарный 
 (2) Номинальный 
 (3) Порядковый 
 (4) Количественный 
 (5) Нет правильного ответа 
Номер 2
Недостаток алгоритма Expectation Maximization (EM) заключается в следующем:
Ответ:
 (1) На каждом из шагов возможно, как возрастание, так и убывание likelihood (вероятности) 
 (2) Невозможно оптимизировать аналитически 
 (3) Не гарантируется глобальная оптимизация 
 (4) В ряде случаев достигнуть экстремум невозможно 
Упражнение 3:
Номер 1
Какому этапу CRISP-DM соответствует Exploratory data analysis:
Ответ:
 (1) Business Understanding 
 (2) Data Understanding 
 (3) Data Preparation 
 (4) Modeling 
 (5) Evaluation 
 (6) Deployment 
Номер 2
На практике, более какого числа раз имеет смысл проводить запуск алгоритма K-means ?
Ответ:
 1000 
Упражнение 4:
Номер 1
Выберите лишний этап методологии CRISP-DM:
Ответ:
 (1) Понимание бизнес-целей 
 (2) Понимание данных 
 (3) Подготовка данных 
 (4) Обучение модели 
 (5) Моделирование 
 (6) Оценка 
 (7) Внедрение 
Номер 2
Пример задачи эффекта "проклятие размерности". Даны два случайных вектора x и y в пространстве размерности D. Как зависит математическое ожидание косинус-расстояния между x и y от размерности D, при наблюдениях, что числитель стремится к нулю, а знаменатель положительный ? Ответ укажите с точность до 2-го знака после запятой.
Ответ:
 1,57 
Упражнение 5:
Номер 1
Данные какой размерности представлены на данном графике?
Ответ:
 3 
Номер 2
Какие проблемы решают задачи кластеризации, отыскивая "скрытую структуру" исследуемых данных и не имея опорной целевой переменной?
Ответ:
 (1) разметка данных "в ручную" очень дорого и трудозатратно 
 (2) построение признаков из очень большего количества данных 
 (3) возможность отслеживать эволюционные изменения 
 (4) поиск выбросов и шумов в исследуемых данных 
 (5) исследование и визуализация больших данных 
Упражнение 6:
Номер 1
Что из перечисленного является средством EDA?
Ответ:
 (1) Histogram 
 (2) Scatter plot 
 (3) Visual estimation 
 (4) Piechart 
Номер 2
Подходы к построению моделей Data Mining
Ответ:
 (1) статистический и на основании машинного обучения 
 (2) на основании машинного обучения и вычислительный 
 (3) вычислительный и статистический 
 (4) все перечисленное 
Упражнение 7:
Номер 1
Для преобразования многомерного пространства в пространство низшей размерности и формирования малого количества признаков из большого количества признаков следует использовать следующий алгоритм:
Ответ:
 (1) T-SNE 
 (2) DBSCAN 
 (3) PAM 
 (4) CWM 
Номер 2
На диаграмме процесса CRISP-DM после этапа Моделирование (Modeling) следует этап
Ответ:
 (1) Понимание бизнес-целей (Business Understanding 
 (2) Подготовка данных (Data Preparation) 
 (3) Оценка (Evaluation) 
 (4) Внедрение (Deployment) 
Номер 3
Какие характерные активности этапа подготовки данных (Data Preparation)
для процесса CRISP-DM
Ответ:
 (1) Удаление шума 
 (2) Заполнение отсутсвующих значений 
 (3) Понять чем характеризуется задача 
 (4) какого результата нужно достичь