大数据实验室

统计学专业大数据实验室建设架构策略

推荐访问:

近年来,如何规划与建设大数据实验室,满足科研与教学乃至社会服务的需求成为了一项统计人必须思考和解决的课题。大数据时代的来临使得统计学专业的教学、科研均受到一定的挑战。尤其是大数据所具有的4V特征,即多样性(Variety)、数量(Volume)、速度(Velocity)和价值(Value)给统计学专业实验室建设带来了相当的挑战:模拟大数据分析环境需要相当的硬件条件与之匹配,而事实上各高校的统计学院在硬件建设、经费、师资储备方面都大大落后于社会发展对大数据人才的需求。





1.统计大数据实验室建设需求及构架分析



传统的统计学专业培养模式中,数据处理能力一直是教学与实践环节的短板,因此大数据实验室一定要在大数据管理、大数据集成、大数据分析、大数据应用方面提供一套"体验、学习、实践、研究、创新、创业"的软硬件平台。统计专业大数据实验室要在教学、科研、社会服务三个方面做好规划与需求分析。在教学方面,大数据实验室要能够围绕专业设置、课程改革、培养模式提供有力的硬件和软件支撑。至少要让学生在技术层面掌握主流数据库的使用与管理、实践环节上接触大数据案例、认知上形成融汇各门课程内容的意识。在科研方面,大数据实验室应至少满足TB级数据量的数据处理、统计计算、模拟分析等方面的需求。在社会服务方面,Z好也能够满足TB级乃至PB级的数据分析与数据挖掘项目。


大数据也称巨量资料,通常是指使用一般的软件工具难以捕捉、管理、存储和分析的海量、多样化、高增长率的数据资源。事实上数据量多少不是划分大数据的依据,笔者认为"大数据"是社会信息化发展成熟阶段后,原本分属于一个专业分工下的数据被其它专业(职业)再深度利用的智能发展过程。原本分属于不同行业、部门、专业的数据汇聚于数据ZX则可能对社会管理、商业智能、科学研究都产生不可估量的影响。正是这种深刻的变革使得统计专业原有的实验室相形见绌:数据处理能力较低、数据处理速度较慢、数据存储量较少、实验室数据资源主题较为单一。


综上分析可知,统计学大数据实验室的建设实际上需要融合统计学、计算机科学与技术、信息管理等多个学科的知识。构建统计大数据实验室的基本逻辑就是;以云计算和Hadoop计算平台为ZX,以数据采集(清洗)和数据管理及服务为两翼,以满足教学、科研和社会服务为目标的软件、硬件的有机结合。其中Z为核心的就是基于Hadoop平台的数据存储、计算和服务。



2.统计大数据实验室建设策略选择



实验室建设要选择上述哪种模式Z大的制约因素还是资金和时间。如果实验室配套经费充足,那么可以直接搭建私有云,相应的也可以建设一个适度规模的Hadoop平台,但对于大部分高校而言动辄上千万的设备投入不是一个小的数目,建设的风险和维护的成本都比较高,Z好能够在有较好的技术及人才储备后再尝试这种模式。常用的统计软件SAS、SPSS也都可以部署在云端。购置一定的数据存储服务器以及计算服务器模拟Hadoop平台下的数据管理以及计算,当然这种模式下数据处理能力肯定无法与真正的Hadoop平台能力完全相同。如果实验室经费在几百万则可以尝试混合云模式,可以部分购买公有云模式下的数据存储、教学资源及数据处理服务。如果经费较为紧张,可以简单的购买公有云服务,学生也可以学习到数据库技术、统计软件以及体验云计算的乐趣。可以说对于大部分院校而言,混合云模式较为有利。



3.统计大数据实验室构建模式分析



构建大数据实验室就是要在合理的成本下,搭建模拟大数据分析的软件与硬件环境,使得学生能够在学校内模拟在企业中所做的大数据统计分析工作。构建统计大数据实验室不同于传统上建设一个计算机机房,也不是真的要完全建设一个商业应用级别的Hadoop平台,那样大部分院校都无法承担其建设的成本与运维的费用。目前,许多软件、硬件供应商都提供了针对高校的大数据实验室的解决方案,根据其对云计算应用模式选择的不同,可以进行如下分类。


公有云模式。相对于私有云模式,数据存储和云计算的服务器均部署在远程供应商处的模式,微软、阿里等公司提供类似的服务。这种模式的优点是高校无需购买大量的软件及硬件,对客户端的配置要求也比较低,应用后期的维护成本也非常的低。这种模式的缺点是由于云计算服务器处于远端,服务的效果受到公共网络速度的限制,其稳定性和安全性受到一定的制约。


私有云模式。简单的讲,这种模式就是将数据存储和云计算的全部服务器均部署在本地的模式,华为、甲骨文等公司提供这种类型的服务。这种模式的优点是云计算平台就在本地,其提供的云计算服务可以不受远程网络速度的限制,能够很好的为整个校园中需要大数据分析及服务的各个专业师生提供统计计算服务。这种模式的缺点是实验室需要直接购买全部的硬件及软件,其成本较高,系统在运行及维护阶段需要有专门的人员和经费做支持。


混合云模式。这种模式顾名思义就是将私有云模式与公有云模式进行有机结合。公有云部分可以提供虚拟教学、异地备灾、云计算以及教学资源等服务,而本地云则可以承担大数据计算的模拟以及数据管理和服务。这种模式的优点较多,既可以灵活的运用价格较低的公有云服务,也可以用相对较少的经费体验Hadoop平台的计算魅力。



4.结语



统计专业大数据实验室建设不是简单的将软件与硬件进行堆砌,也不是将传统的统计软件运行在新的云计算平台上。云计算只是一个技术支撑,为避免实验室建设"空心化",完善实验室的建设与运行还要注意以下几个方面。diyi,加强数据资源的购买和积累。统计大数据实验室需要积累一定量的大数据案例和行业数据,在数据支撑下,学生在案例教学中才能较好的学习大数据理论与技术。第二,实验室可以联合IT厂商做相关的培训和认证。学生获得行业认证有利于今后的学习与求职,同时培训工作也在高校教师同企业之间搭建了桥梁,有利于今后产学研的结合。第三,立足科研,做好社会服务工作。条件较好的大数据实验室可以开展相关服务,这样有利于多方资金的投入建设。第四,做好师资力量的培养和积累。大数据实验室需要具备IT技术的统计专业教师,对这部分教师的培训和实践锻炼是非常有必要的,同时对于部分"外聘人员"也需要提供一定的优惠薪金。第五,加强国际、国内的交流与合作,为实验室建设提供更为有利的前瞻性规划。


2018-04-09浏览次数:1833次
本文来源:https://m.yiqi.com/retiao/detail_1482.html
热门标签:
分享到
上一篇:食品实验室安全管理制度,为食品实验室安全提供保障
下一篇:什么是区块链概念股,为什么成为市场共同的“宠儿”
最新资讯
看过该文章的人还看过
大数据实验室
大数据实验室架构
大数据实验室建设