Цель курса – предоставить слушателям знания и навыки, необходимые для создания и запуска сценариев анализа больших данных на сервере Microsoft R. Также в курсе описано как работать с Microsoft R в средах обработки больших данных как Hadoop, кластер Spark или база SQL Server.
По окончании курса Вы будете уметь:
- описывать работу Microsoft R;
- использовать клиента R и Server R для обработки больших данных из разных хранилищ;
- визуализировать данные с помощью графиков и схем;
- преобразовывать и очищать наборы больших данных;
- использовать способы разделения аналитических задач на параллельные задачи;
- строить и оценивать регрессионные модели, генерируемые на основе больших данных;
- создавать, оценивать и разворачивать партиционированные модели на основе больших данных;
- использовать язык R в средах SQL Server и Hadoop.
Специалисты, обладающие этими знаниями и навыками, в настоящее время крайне востребованы. Большинство выпускников наших курсов делают успешную карьеру и пользуются уважением работодателей.
Программа курса
Модуль 1. Сервер и клиент Microsoft R
- Обзор сервера Microsoft R
- Использование клиента Microsoft R
- Функции ScaleR
Лабораторная работа: Обзор сервера и клиента Microsoft R
- Использование клиента R в VSTR и RStudio
- Обзор функций ScaleR
- Подключение к удалённому серверу
Модуль 2. Обзор больших данных
- Источники данных ScaleR
- Чтение данных в XDF-объекте
- Обобщение данных в XDF-объекте
Лабораторная работа: Обзор больших данных
- Чтение локального CSV-файла и передача данных в XDF-файл
- Преобразование данных на входе
- Чтение данных из SQL Server и передача в XDF-файл
- Подведение итогов в XDF-файле
Модуль 3. Визуализация больших данных
- Визуализация данных в памяти
- Визуализации больших данных
Лабораторная работа: Визуализация данных
- Использование ggplot для создания многогранной диаграммы с наложением
- Использование rxlinePlot и rxHistogram
Модуль 4. Обработка больших данных
- Преобразование больших данных
- Управление наборами данных
Лабораторная работа: Обработка больших данных
- Преобразование больших данных
- Сортировка и слияние больших данных
- Подключение к удаленному серверу
Модуль 5. Распараллеливание операций анализа
- Использование вычислительного контекста RxLocalParallel с функцией rxExec
- Использование пакета revoPemaR
Лабораторная работа: Использование rxExec и revoPemaR для распараллеливания операций
- Использование rxExec для оптимизации использования ресурсов
- Создание и применение класса PEMA
Модуль 6. Создание и оценка регрессионной модели
- Кластеризации больших данных
- Создание регрессионных моделей и подготовка прогнозов
Лабораторная работа: Создание линейной регрессионной модели
- Создание кластера
- Создание регрессионной модели
- Генерация данных для составления прогнозов
- Использование модели для составления прогнозов и сравнение результатов
Модуль 7. Создание и оценка партиционированных моделей (Partitioning Model)
- Создание партиционированных моделей на основе дерева решений.
- Тестирование прогнозов партиционированных моделей
Лабораторная работа: Создание и оценка партиционированных моделей
- Разбиение набора данных
- Построение моделей
- Подготовка прогноза и тестирование результатов
- Сравнение результатов
Модуль 8. Обработка больших данных в SQL Server и Hadoop
- Использование R в SQL Server
- Использование Map/Reduce в Hadoop
- Использование Hadoop Spark
Лабораторная работа: Обработка больших данных в SQL Server и Hadoop
- Создание модели и прогнозирования результатов в SQL Server
- Анализ и вывод результата с помощью Map/Reduce в Hadoop
- Интеграция скрипта sparklyr в рабочий процесс ScaleR
Отзывы
Отзывов пока нет.