игра брюс 2048
Главная / Базы данных / Алгоритмы интеллектуальной обработки больших объемов данных / Тест 5

Алгоритмы интеллектуальной обработки больших объемов данных - тест 5

Упражнение 1:
Номер 1
В некотором языке четвертое по частоте использования слово встречается в два раза реже второго по частоте, а третье по частоте использования имеет частоту, на 0,04 меньше первого по частоте. Используя закон Ципфа (Zipf’s law), вычислите частоту использования десятого по частоте использования слова с точностью до трех знаков после запятой:

Ответ:

 0,006 


Номер 2
Напишите название этапа обработки текста, скрытого на схеме ниже
 files

Ответ:

 Нормализация 


Упражнение 2:
Номер 1
В документе d слово "кластер" встречается с частотой TF("кластер",d)=0,0125. Мы имеем возможность программным образом изучить миллион документов, и выяснить, что указанное слово встречается только в 100 из них. Вычислите TF-IDF слова "кластер" в документе d с точностью до двух знаков после запятой:

Ответ:

 0,05 


Номер 2
Все переменные являются одинаково важными и статистически независимыми, т.е. значение одной переменной ничего не говорит о значении другой. Это свойства:

Ответ:

 (1) наивной байесовской классификации 

 (2) Атрибута расщепления 

 (3) Метода "k-ближайших соседей" 

 (4) Сети Кохонена 


Упражнение 3:
Номер 1
На электронную почту пришло два подозрительных письма, одно из них (A) содержало слово "лотерея", второе (B) – слова "лекарство" и "похудение". Дано, что спам составляет 3% писем, доля писем, где встречается слово "лотерея": спам - 0,04%, не спам – 0,01%; слово "лекарство": спам - 0,02%, не спам – 0,01%; слово "похудение": спам - 0,01%, не спам - 0,0005%. Пользуясь наивным байесовским классификатором (Naive Bayes) с правдоподобием Бернулли (BernoulliNB), определить, какие из полученных писем являются спамом.

Ответ:

 (1) Только A. 

 (2) Только B. 

 (3) A и B. 

 (4) Не A и не B. 


Номер 2
В задачах Text Mining, при извлечения очевидной информации, основные трудности для "машины" представляют ?

Ответ:

 (1) Огромные объемы 

 (2) Отсутствие структуры в данных 

 (3) Отсутствие фазы "обучение с учителем" 

 (4) Порядковая сложность алгоритмов , по сравнению с Data Mining 


Упражнение 4:
Номер 1
В результате действия чего из знаменитой фразы "to be or not to be" может удалиться все содержимое?

Ответ:

 (1) Стоп-слова 

 (2) Приведение к нижнему регистру 

 (3) Стемминг 


Номер 2
При обработке текстов, укажите подходы для приведения токенов к единому виду, чтобы избавиться от поверхностной разницы в написании ?

Ответ:

 (1) сформулировать набор правил, по которым преобразуется токен 

 (2) явно хранить связи между токенами 

 (3) хранить связи меду токеном и образованным от него различные части речи 

 (4) всегда преобразовывать токен к существительному 


Упражнение 5:
Номер 1
Укажите преимущества байесовского классификатора.

Ответ:

 (1) Генеративная модель 

 (2) Самостоятельно делает отбор признаков 

 (3) Стабильность при смещении выборки 

 (4) Предположения делаются при формировании модели 

 (5) Оптимальный по производительности 


Номер 2
Назовите преимущества "наивного Байесовского классификатора" ?

Ответ:

 (1) генеративная модель 

 (2) стабилен при смещении выборки 

 (3) оптимален по производительности 

 (4) использует наивные предположения 

 (5) не требует отбора признаков 


Упражнение 6:
Номер 1
Что такое токенизация в обработке текстов?

Ответ:

 (1) Один из этапов обработки текста 

 (2) Разбиение последовательности символов на последовательность слов 

 (3) Удаление знаков препинания из строки 

 (4) Добавление зашифрованных элементов к последовательности символов 

 (5) Расшифровка регулярных выражений 


Номер 2
Какие задачи может решать Text Mining

Ответ:

 (1) Суммаризация текста 

 (2) Классификация и кластеризация документов 

 (3) Извлечение метаданных, выделение сущностей 

 (4) Все перечисленное 


Упражнение 7:
Номер 1
Укажите тип информации, извлечение которой осуществляется в Data Mining:

Ответ:

 Неочевидный 


Номер 2
На диаграмме "Этапы обработки текста" этап токенизации идет следом за этапом…

Ответ:

 (1) Удаление стоп-слов 

 (2) Нормализация 

 (3) Декодирование 

 (4) Стреминг 


Номер 3
Укажите основные плюсы использования Naive Bayes

Ответ:

 (1) Генеративная модель 

 (2) Стабилен при смещении 

 (3) Оптимален по производительности 

 (4) Не требует отбора признаков 




Главная / Базы данных / Алгоритмы интеллектуальной обработки больших объемов данных / Тест 5