игра брюс 2048
Главная / Базы данных / Алгоритмы интеллектуальной обработки больших объемов данных / Тест 1

Алгоритмы интеллектуальной обработки больших объемов данных - тест 1

Упражнение 1:
Номер 1
Михаил получает на электронную почту в среднем 1000 писем в месяц, из них 2,44% - это спам. Известно, что среди спама слово "знакомство" встречается в 0,01% писем, а среди обычных писем в 10 раз реже. Какова вероятность того, что письмо, попавшее на почтовый ящик Михаила, в тексте которого встречается указанное слово, не является спамом? (Ответ укажите в целых процентах без знака процента.)

Ответ:

 80 


Номер 2
Выберите оптимальный параметр для следующей модели согласно принципу ML (Maximum Likelihood / Максимальное правдоподобие): "Вероятность того что идет дождь если есть тучи сильнее, чем вероятность того что идет дождь, если туч нет":

Ответ:

 (1) Падают капли 

 (2) Наличие туч 

 (3) Не видно небо 

 (4) Мокрая земля 


Упражнение 2:
Номер 1
Дома на четной стороне улицы имеют номера 2, 4, 6, … . Номер дома – это признак:

Ответ:

 (1) Бинарный 

 (2) Номинальный 

 (3) Порядковый 

 (4) Количественный 

 (5) Нет правильного ответа 


Номер 2
Недостаток алгоритма Expectation Maximization (EM) заключается в следующем:

Ответ:

 (1) На каждом из шагов возможно, как возрастание, так и убывание likelihood (вероятности) 

 (2) Невозможно оптимизировать аналитически 

 (3) Не гарантируется глобальная оптимизация 

 (4) В ряде случаев достигнуть экстремум невозможно 


Упражнение 3:
Номер 1
Какому этапу CRISP-DM соответствует Exploratory data analysis:

Ответ:

 (1) Business Understanding 

 (2) Data Understanding 

 (3) Data Preparation 

 (4) Modeling 

 (5) Evaluation 

 (6) Deployment 


Номер 2
На практике, более какого числа раз имеет смысл проводить запуск алгоритма K-means ?

Ответ:

 1000 


Упражнение 4:
Номер 1
Выберите лишний этап методологии CRISP-DM:

Ответ:

 (1) Понимание бизнес-целей 

 (2) Понимание данных 

 (3) Подготовка данных 

 (4) Обучение модели 

 (5) Моделирование 

 (6) Оценка 

 (7) Внедрение 


Номер 2
Пример задачи эффекта "проклятие размерности". Даны два случайных вектора x и y в пространстве размерности D. Как зависит математическое ожидание косинус-расстояния между x и y от размерности D, при наблюдениях, что числитель стремится к нулю, а знаменатель положительный ? Ответ укажите с точность до 2-го знака после запятой.

Ответ:

 1,57 


Упражнение 5:
Номер 1
Данные какой размерности представлены на данном графике?
files

Ответ:

 3 


Номер 2
Какие проблемы решают задачи кластеризации, отыскивая "скрытую структуру" исследуемых данных и не имея опорной целевой переменной?

Ответ:

 (1) разметка данных "в ручную" очень дорого и трудозатратно 

 (2) построение признаков из очень большего количества данных 

 (3) возможность отслеживать эволюционные изменения 

 (4) поиск выбросов и шумов в исследуемых данных 

 (5) исследование и визуализация больших данных 


Упражнение 6:
Номер 1
Что из перечисленного является средством EDA?

Ответ:

 (1) Histogram 

 (2) Scatter plot 

 (3) Visual estimation 

 (4) Piechart 


Номер 2
Подходы к построению моделей Data Mining

Ответ:

 (1) статистический и на основании машинного обучения 

 (2) на основании машинного обучения и вычислительный 

 (3) вычислительный и статистический 

 (4) все перечисленное 


Упражнение 7:
Номер 1
Для преобразования многомерного пространства в пространство низшей размерности и формирования малого количества признаков из большого количества признаков следует использовать следующий алгоритм:

Ответ:

 (1) T-SNE 

 (2) DBSCAN 

 (3) PAM 

 (4) CWM 


Номер 2
На диаграмме процесса CRISP-DM после этапа Моделирование (Modeling) следует этап

Ответ:

 (1) Понимание бизнес-целей (Business Understanding 

 (2) Подготовка данных (Data Preparation) 

 (3) Оценка (Evaluation) 

 (4) Внедрение (Deployment) 


Номер 3
Какие характерные активности этапа подготовки данных (Data Preparation)
 для процесса CRISP-DM

Ответ:

 (1) Удаление шума 

 (2) Заполнение отсутсвующих значений 

 (3) Понять чем характеризуется задача 

 (4) какого результата нужно достичь 




Главная / Базы данных / Алгоритмы интеллектуальной обработки больших объемов данных / Тест 1