2022年3月17日,437必赢会员中心网页版工商管理系“人力资源大数据实践项目”开展了第二次课程教学。按照疫情防控期间相关要求,本次授课依旧采取腾讯会议的方式进行,有幸邀请到新道科技股份有限公司高级讲师曹晔进行讲授。同学们对曹老师的上课方式已经有所熟悉,和着老师的讲课节奏,课程进度十分顺利。曹老师对同学们的大数据基础进行了摸底测试,紧接着便开始了“干货”的教学——数据清洗与数据挖掘。曹老师从大数据来源、数据结构类型和一般数据收集方法与途径这三个方面进行了讲解,并带领同学们进行了数据爬取的实操。
一、大数据来源
曹老师解释说,关于大数据的来源,从数据本体来看分为内部来源和外部来源。数据内部来源有企业信息管理系统,包括人力资源系统、财务管理系统、客户关系管理系统和OA系统——办公自动化;部门上报数据,是获得数据的简易渠道,只需要发布数据需求通知,各分公司或部门就会按照要求填报数据上来,收集数据的速度较快;内部调查数据,人力资源部通常会使用问卷调查来收集所需数据;物联网系统,包括智能仪表、智能设备、视频监控系统等。数据外部系统包括政府公开数据,这是政府公开信息公开出版的社会经济数据,一般通过政府机构网站来获取数据,与人力资源相关的主要是统计局,人社部等官方网站的公开数据;企业发布数据,通过上市公司发布的年报,可以获取一部分可以利用的数据;人力资源行业网络数据,包括人力资源行业商业调查数据、网络招聘平台发布的数据和线上劳动外包平台发布的数据;公共社交网络数据,包含社交网站发布的数据和在线社区发布的数据。
二、数据结构类型
在数据结构类型方面,曹老师介绍了三种数据结构:结构化数据、非结构化数据和半结构化数据。一般情况下非结构化数据占用内存较大,因为它常常包含图像、声音、网页和视频等信息。
三、一般数据收集方法与途径
在一般数据收集方法与途径方面,曹老师指出现行一般的数据收集方法与途径有网络爬取、数据调用、网络搜索、数据填报和调查数据这五大类。本次课程主要对网络爬取进行讲解与实际操作。
随后,曹老师向同学们介绍了12款网络大数据采集工具,并着重介绍了后羿采集器和八爪鱼、爬山虎采集器,以及我们熟知的Python。这几款数据采集器也是当前比较流行的几款,功能强大、实用,上手快,操作简单。后羿采集器颇受曹老师的青睐,也在后面的举例中让我们一睹其风采。
曹老师告诉同学们使用的爬虫程序不仅可以获取新道人才网的信息,还可以去其他人才网站爬取人才资源信息,像猎聘网、58同城、BOSS直聘等网站都是选择的对象,并以猎聘网为例示范了人力资源数据爬取的操作。
最后,曹老师进行了数据清洗、数据挖掘的示例教学。同学们对这一环节非常感兴趣,积极参与数据清洗与挖掘的练习。在进行模型选择和建模时,有部分同学出现了因素选择操作失误的问题,曹老师耐心地进行了答疑。课后同学们纷纷表示收获颇丰,对人力资源大数据这一项目的兴趣更加深厚。
供稿|工商管理系
责编|赵西爱
审核|范小华