Введение в аналитику больших массивов данных

Упражнение 1:

Номер 1

большинство данных в мире в 2011 году содержалось:

Ответ:

(1) в цифровом виде

(2) в аналоговом виде

Номер 2

В каком веке произошёл перевес объёмов накопленных человечеством данных в сторону цифровых?

Ответ:

20

Номер 3

Объём накопленных человечеством цифровых данных на 2012 год измеряется:

Ответ:

(1) петабайтами

(2) зеттабайтами

(3) экзабайтами

(4) йоттабайтами

Номер 4

Сколько Петабайт в Зеттабайте? Укажите число.

Ответ:

1024

Упражнение 2:

Номер 1

укажите фактор, способствовавший появлению тренда больших данных

Ответ:

(1) маркетинговые кампании крупных корпораций

(2) снижение издержек на хранение данных

(3) появление новых технологий обработки потоковых данных

(4) выпуск баз данных с обработкой данных в памяти

Номер 2

Какие вероятные разочарования тренда больших данных?

Ответ:

(1) из-за угрозы безопасности личной жизни (privacy) граждан будут усложнены процедуры сбора данных, что приведёт к падению ценности больших данных

(2) из-за угрозы безопасности личной жизни (privacy) граждан будут упрощены процедуры сбора данных, что приведёт к падению ценности больших данных

(3) нет

Номер 3

Отметьте значимые события, повлиявшие на формирование тренда больших данных:

Ответ:

(1) разработка Hadoop

(2) изобретение принципа MapReduce

(3) разработка языка Pyhton

(4) победа Deepblue в матче с Г.Каспаровым

Упражнение 3:

Номер 1

Выберите верный ответ

Ответ:

(1) большие данные – это обработка или хранение более 1 Тб информации

(2) проблема больших данных – это такая проблема, когда при существующих технологиях хранения и обработки сущностная обработка данных затруднена или невозможна

(3) большие данные – это огромная PR-акция крупных вендоров и не более того

(4) большие данные – это явление, когда цифровые данные наиболее полно представляют изучаемый объект

Номер 2

Выберите неверный ответ:

Ответ:

(1) большие данные – это данные объёма свыше 1 Тб

(2) проблема больших данных – это проблема, когда при существующих технологиях хранения и обработки сущностная обработка данных затруднена или невозможна

(3) большие данные – это тренд в области ИТ, подогреваемый маркетинговыми кампаниями крупных вендоров

(4) большие данные как правило не структурированы

Номер 3

Отметьте те из вариантов, в которых данные структурированы:

Ответ:

(1) данные о продажах компании, представленные в виде помесячных отчётов в формате MS Word

(2) таблица с ежедневными показаниями температуры помещения за год в файле формата csv

(3) текст педагогической поэмы А.С. Макаренко, представленный в формате PDF

(4) библиотека фильмов, представленных в формате mpeg4 на одном жестком диске

Упражнение 4:

Номер 1

Перечислите четыре основных характеристики Big Data:

Ответ:

(1) Virtualization, Volume, Variability, Vehicle

(2) Variety, Velocity, Volume, Value

(3) Verification, Volume, Velocity, Visualization

(4) Video, Value, Variety, Volume

Номер 2

Выберите неверное высказывание:

Ответ:

(1) большие объёмы данных приводят к слабой их структуризации, поэтому появляется такое разнообразие данных

(2) увеличившаяся производительность телекоммуникационных каналов привела к росту объёмов передаваемой информации

(3) удешевление систем хранения на единицу информации привело к росту рынка больших данных

Номер 3

Отметьте неверное понимание Variety в контексте характеристик Big Data:

Ответ:

(1) высокая скорость генерирования данных

(2) разные типы данных в колонках таблиц реляционных СУБД

(3) разнообразие отраслей, являющихся источниками данных

(4) разнообразие типов данных, включающих в себя структурированные, полуструктурированные и неструктурированные

Упражнение 5:

Номер 1

Принцип MapReduce состоит в том, чтобы

Ответ:

(1) производить вычисления на узлах, где информация изначально была сохранена

(2) использовать вычислительные мощности систем хранения

(3) использовать функциональное программирование для решения задач массивно-параллельной обработки

Номер 2

Выберите одно неверное высказывание про MapReduce:

Ответ:

(1) интерфейс для массово-параллельной обработки данных, где вычисления производятся на узлах, где информация изначально была сохранена

(2) MapReduce – это две операции: распределения и сборки данных

(3) MapReduce был придуман разработчиками Hadoop

(4) MapReduce был анонсирован разработчиками Google

Номер 3

Во сколько раз теоретически вырастет производительность при подсчёте числа слов в тексте при работе MapReduce при переходе от одного узла к двум? (Введите число.)

Ответ:

2

Упражнение 6:

Номер 1

Какие из следующих технологий СУБД не используют принцип MapReduce

Ответ:

(1) Hadoop

(2) Cassandra

(3) HDInsight

(4) Redis

Номер 2

Какие СУБД полностью полагаются на оперативную память при хранении информации:

Ответ:

(1) Oracle Exalytics

(2) SAP HANA

(3) BigTable

(4) HBase

Номер 3

В чём преимущество колоночно-ориентированных СУБД?

Ответ:

(1) они позволяют выполнять более сложные SQL-запросы по сравнению с реляционными СУБД

(2) они позволяют динамически дополнять содержание записей новыми полями

(3) они имеют более гибкие возможности аналитики

(4) они позволяют эффективно делать межколоночные сравнения

Упражнение 7:

Номер 1

Для чего аналитику необходима "песочница"?

Ответ:

(1) для высокопроизводительной аналитики за счёт использования оперативной памяти и inDB операций

(2) для хранения всех полученных от заказчика данных

(3) для построения отчётов о результатах анализа

(4) для снижения затрат, связанных с репликацией данных

Номер 2

Какие из следующих средств разумно использовать для анализа данных, представленных единственным csv-файлом размера более 100Гб:

Ответ:

(1) Hadoop

(2) Data Warehouse

(3) "Песочница"

(4) Python

Номер 3

Выберите верное утверждение:

Ответ:

(1) Data Warehouse создаются для проверки гипотез при анализе больших данных

(2) "Песочница" используется для снижения нагрузки на основной Data Warehouse

(3) каждый Data Warehouse должен содержать "песочницу"

(4) "Песочница" необходима для любого процесса аналитики

Упражнение 8:

Номер 1

Ниже приведена последовательность этапов проекта аналитики в соответствии с CRISP-DM, укажите первый этап.

Ответ:

(1) моделирование (Modeling)

(2) внедрение (Deployment)

(3) подготовка данных (Data Preparation)

(4) понимание бизнеса (Business understanding)

(5) оценка (Evaluation)

(6) понимание данных (Data Understanding)

Номер 2

На каком из этапов процесса CRISP-DM происходит проверка гипотез?

Ответ:

(1) понимание бизнеса (Business understanding)

(2) понимание данных (Data Understanding)

(3) моделирование (Modeling)

(4) оценка (Evaluation)

Номер 3

Вы являетесь владельцем и аналитиком в компании из 10 человек, в которой требуется проанализировать продажи за 1 год (1 млн. продаж). Какие из этапов CRISP-DM можно опустить:

Ответ:

(1) понимание бизнеса (Business understanding)

(2) подготовка данных (Data Preparation)

(3) моделирование (Modeling)

(4) оценка (Evaluation)

Упражнение 9:

Номер 1

Пример благоразумного использования Hadoop

Ответ:

(1) анализ 10 Гб данных

(2) ежедневное сохранение данных температуры, поступающих со всех городов России (по одному показанию на город, всего городов 1100 шт)

(3) посекундное сохранение данных температуры, поступающих со всех городов России (по одному показанию на город, всего городов 1100 шт)

(4) построение графика пульса пациента в реальном времени

Номер 2

Начиная с каких размеров данных обоснованно применение кластера Hadoop для хранения данных?

Ответ:

(1) 100Гб

(2) 1Тб

(3) 100Тб

(4) 1Пб

Номер 3

Hadoop – это:

Ответ:

(1) набор утилит, и программный каркас для выполнения распределённых программ, работающих на кластерах

(2) распределённая СУБД, позволяющая обрабатывать большие данные

(3) язык выполнения заданий в парадигме MapReduce

(4) распределённая файловая система, предназначенная для хранения файлов большого объёма

Введение в аналитику больших массивов данных - тест 4