Главная / Базы данных /
Алгоритмы интеллектуальной обработки больших объемов данных / Тест 5
Алгоритмы интеллектуальной обработки больших объемов данных - тест 5
Упражнение 1:
Номер 1
В некотором языке четвертое по частоте использования слово встречается в два раза реже второго по частоте, а третье по частоте использования имеет частоту, на 0,04 меньше первого по частоте. Используя закон Ципфа (Zipf’s law), вычислите частоту использования десятого по частоте использования слова с точностью до трех знаков после запятой:
Ответ:
 0,006 
Номер 2
Напишите название этапа обработки текста, скрытого на схеме ниже
Ответ:
 Нормализация 
Упражнение 2:
Номер 1
В документе d слово "кластер" встречается с частотой TF("кластер",d)=0,0125. Мы имеем возможность программным образом изучить миллион документов, и выяснить, что указанное слово встречается только в 100 из них. Вычислите TF-IDF слова "кластер" в документе d с точностью до двух знаков после запятой:
Ответ:
 0,05 
Номер 2
Все переменные являются одинаково важными и статистически независимыми, т.е. значение одной переменной ничего не говорит о значении другой. Это свойства:
Ответ:
 (1) наивной байесовской классификации 
 (2) Атрибута расщепления 
 (3) Метода "k-ближайших соседей" 
 (4) Сети Кохонена 
Упражнение 3:
Номер 1
На электронную почту пришло два подозрительных письма, одно из них (A) содержало слово "лотерея", второе (B) – слова "лекарство" и "похудение". Дано, что спам составляет 3% писем, доля писем, где встречается слово "лотерея": спам - 0,04%, не спам – 0,01%; слово "лекарство": спам - 0,02%, не спам – 0,01%; слово "похудение": спам - 0,01%, не спам - 0,0005%. Пользуясь наивным байесовским классификатором (Naive Bayes) с правдоподобием Бернулли (BernoulliNB), определить, какие из полученных писем являются спамом.
Ответ:
 (1) Только A. 
 (2) Только B. 
 (3) A и B. 
 (4) Не A и не B. 
Номер 2
В задачах Text Mining, при извлечения очевидной информации, основные трудности для "машины" представляют ?
Ответ:
 (1) Огромные объемы 
 (2) Отсутствие структуры в данных 
 (3) Отсутствие фазы "обучение с учителем" 
 (4) Порядковая сложность алгоритмов , по сравнению с Data Mining 
Упражнение 4:
Номер 1
В результате действия чего из знаменитой фразы "to be or not to be" может удалиться все содержимое?
Ответ:
 (1) Стоп-слова 
 (2) Приведение к нижнему регистру 
 (3) Стемминг 
Номер 2
При обработке текстов, укажите подходы для приведения токенов к единому виду, чтобы избавиться от поверхностной разницы в написании ?
Ответ:
 (1) сформулировать набор правил, по которым преобразуется токен 
 (2) явно хранить связи между токенами 
 (3) хранить связи меду токеном и образованным от него различные части речи 
 (4) всегда преобразовывать токен к существительному 
Упражнение 5:
Номер 1
Укажите преимущества байесовского классификатора.
Ответ:
 (1) Генеративная модель 
 (2) Самостоятельно делает отбор признаков 
 (3) Стабильность при смещении выборки 
 (4) Предположения делаются при формировании модели 
 (5) Оптимальный по производительности 
Номер 2
Назовите преимущества "наивного Байесовского классификатора" ?
Ответ:
 (1) генеративная модель 
 (2) стабилен при смещении выборки 
 (3) оптимален по производительности 
 (4) использует наивные предположения 
 (5) не требует отбора признаков 
Упражнение 6:
Номер 1
Что такое токенизация в обработке текстов?
Ответ:
 (1) Один из этапов обработки текста 
 (2) Разбиение последовательности символов на последовательность слов 
 (3) Удаление знаков препинания из строки 
 (4) Добавление зашифрованных элементов к последовательности символов 
 (5) Расшифровка регулярных выражений 
Номер 2
Какие задачи может решать Text Mining
Ответ:
 (1) Суммаризация текста 
 (2) Классификация и кластеризация документов 
 (3) Извлечение метаданных, выделение сущностей 
 (4) Все перечисленное 
Упражнение 7:
Номер 1
Укажите тип информации, извлечение которой осуществляется в Data Mining:
Ответ:
 Неочевидный 
Номер 2
На диаграмме "Этапы обработки текста" этап токенизации идет следом за этапом…
Ответ:
 (1) Удаление стоп-слов 
 (2) Нормализация 
 (3) Декодирование 
 (4) Стреминг 
Номер 3
Укажите основные плюсы использования Naive Bayes
Ответ:
 (1) Генеративная модель 
 (2) Стабилен при смещении 
 (3) Оптимален по производительности 
 (4) Не требует отбора признаков