数据科学与大数据创新实验室位于主楼11层11094室,建筑面积95平方米,主要设备为一台价值3.7万元的交互智能平板,无形资产84.24万元,包括大数据实验平台的计算节点资源等。
实验室承担数据科学与大数据专业专业一、二、三、四年级300余名员工的实验教学任务,同时向全系员工开放,年均实验教学任务约5千员工人时数。
实验室主要承担的课程为《数据结构》、《Hadoop大数据设计》、《机器学习》、《机器学习综合实战》、《大数据分析与内存计算》等。
主要开设的实验项目有:
序号 |
课程名称 |
实验项目名称 |
实验类型 |
学时 |
1 |
数据结构 |
栈和队列的存储结构与特点比较 |
综合性 |
2 |
链式存储结构的测试 |
综合性 |
2 |
递归算法的应用 |
综合性 |
2 |
二叉树的创建、遍历和节点查找问题 |
综合性 |
2 |
2 |
Hadoop大数据设计 |
Hadoop大数据平台搭建及MapReduce开发 |
综合性 |
8 |
3 |
机器学习综合实战 |
电影影评数据分析与预测 |
综合性 |
1周 |
4 |
机器学习 |
线性回归之房价预测实验 |
综合性 |
2 |
电信用户流失案例分析实验 |
综合性 |
2 |
用户是否够购买汽车实验 |
综合性 |
2 |
信用卡欺诈检测 |
综合性 |
2 |
5 |
大数据分析与内存计算 |
搭建Spark完全分布式环境 |
综合性 |
8 |
6 |
分布式数据库原理与应用 |
HBase集群搭建 |
综合性 |
2 |
HBase创建表及表的操作 |
综合性 |
2 |
HBase与MapReduce结合 |
综合性 |
2 |
微博案例需求分析与相关功能实现 |
综合性 |
2 |
7 |
数据管理与数据工程 |
使用采集器采集指定网址 |
验证性 |
2 |
NoSQL的安装和基本使用 |
验证性 |
2 |
文件单词统计 |
设计性 |
2 |
综合应用 |
综合性 |
2 |
实验项目简介:
主要开设的实验包括:“电影影评数据分析和评分预测”、“信用卡欺诈检测”、“搭建Spark完全分布式环境”、“Hadoop大数据平台搭建及MapReduce开发”等。
(1)栈和队列的存储结构与特点比较:基于Java语言编码实现栈的进栈与出栈的方法并测试,帮助员工养成良好的编程习惯,树立良好的职业道德。
(2)电影影评数据分析与预测:为了综合利用机器学习方法和数据挖掘的分析技术尝试做一些比较复杂的实际数据分析项目。本项目通过爬虫手段从Web网站上获取电影评分数据集,然后利用数据分析方法探求电影评分及其票房之间的关系。在这个案例当中,将会看到一个完整的数据分析的流程:影评数据抓取及处理—从多个需求进行电影数据分析及可视化—基于机器学习模型进行预测——总结。
(3)电信用户流失案例分析实验:通过对采集的电信客户数据集来分析人们对电信服务的使用情况,帮助电信运营商找出客户流失的原因,并针对这些因素建立预测模型,以帮助运营商解决用户流失问题,降低流失率。实验中关键流程包括:了解电信业务流程和理解数据—对数据集进行清洗和处理—数据分析与展现—构建机器学习模型—利用模型对测试集进行预测—对构建的分类模型准确性进行分析—撰写报告。
(4)Hadoop大数据平台搭建及MapReduce开发:该项目员工需要部署Hadoop完全分布式分布式系统,并对此系统中的分布式存储进行多角度多方式无差别访问,最后对存储在系统上的数据,利用分布式计算MapReduce进行实际问题分析。整个过程提高员工对分布式存储,分布式计算,分布式设计,权限管理,代码管理等的深层次理解及实操能力。
(5)搭建Spark完全分布式环境:基于Rocky Linux9.1操作系统,搭建全新企业级实用Spark完全分布式集群环境,该实验项目主要涉及三个方面:Hadoop集群环境搭建、Spark集群环境搭建和Scala程序执行与测试。
(6)微博案例需求分析与相关功能实现:完成微博案例需求分析,创建命名空间,创建微博内容表、用户关系表和用户微博内容收件箱表。
(7)使用采集器采集指定网址:要求员工了解数据爬取的过程,熟悉采集器的应用,对采集到的数据进行简单分析。