数据科学与大数据实验系统
一站式大数据实验系统
一、系统整体架构
平台采用虚拟化容器技术、分布式集群部署方式进行基础平台构建,在高效的利用系统硬件资源的同时,灵活分配系统资源供学生进行实训。从应用上,平台分为四个层次:硬件资源层、平台支持层、实验应用层、用户操作层。

1、硬件资源层:由服务器资源设备、网络交换设备、实验终端设备等硬件组成,通过分布式集群部署及管理,主要用于提供教学平台、教学资源的硬件支撑,同时为大数据实验资源提供计算能力和案例数据的存储能力;
2、平台支持层:主要提供学生申请实验资源,保证每个学生使用独立的实验环境。
3、实验应用层:提供学生五大课程开发环境及案例管理。开发环境包括:在线SSH、Python/R语言在线编译环境、可视化开发环境、数据挖掘开发环境、统计分析开发环境、文本分析开发环境。
4、用户操作层:根据角色不同,分为超级管理员、教师、学生。学生在线学习及上机实验操作、教师对每个学生学习进行管理及分析。
二、实验环境
系统内置大量实验环境,包括centos、python、kettle、mongodb、scala、r、统计分析、数据挖掘、自然语言挖掘、数据可视化等环境。

Centos桌面环境

Python环境

统计分析环境

数据挖掘环境

自然语言挖掘环境

数据可视化环境
三、课程资源
|
课程名称 |
课时 |
案例数量 |
|
大数据技术基础课程 |
64 |
交通大数据 互联网数据处理 精准营销 环境大数据 智能硬件大数据托管 银行贷款风险评估 |
|
R语言编程学习课程 |
32 |
决策树 随机森林算法 生存分析 卡方检验 |
|
Python2语言编程实验课程 |
32 |
朴素贝叶斯 KNN分类 K-均值聚类 线性回归 |
|
Python3语言编程实验课程 |
32 |
朴素贝叶斯 K-均值聚类 KNN聚类 线性回归 |
|
可视化工具操作 |
16 |
地图使用教程 报表拼接组件 表单填报组件 框架及容器组件 |
|
统计分析工具化课程 |
96 |
银行业中的应用 航空公司客户价值分析 国内旅游收入影响因素分析 高校本科生就业问题研究 城镇居民的消费支出结构研究 |
|
数据挖掘工具化课程 |
96 |
终端换机预测 零售商户的用户画像 信用卡申请风险评估 设备诊断 纳税人偷税漏税风险评估 零售行业中的购物篮分析 销售收入预测 |
|
自然语言处理课程 |
64 |
用户对商品的评价信息 12345市场热线 |