您现在正在浏览:首页 > 职教文章 > 职教论文 > 基于云计算的图书馆大数据服务探析

基于云计算的图书馆大数据服务探析

日期: 2021/4/7 浏览: 1 来源: 学海网收集整理 作者: 邓新龙

(新疆应用职业技术学院,新疆 奎屯市 833200)
   摘要:图书馆大数据服务是二十一世纪老生常谈但常谈常新的一个话题。云计算技术的兴起,为图书馆大数据服务创新发展提供了良好的机遇。文章以云计算为基础,探究了大数据服务的内涵及其与云计算的本质关联,探析了图书馆大数据服务的架构设计,并对图书馆大数据服务的实现途径进行了分析,希望可以为云计算基础上的图书馆大数据服务质量提高提供一些参考。
   关键词:云计算;图书馆;大数据服务
  
   前言:云计算方兴日盛,大数据又东山再起,图书馆界正在大力推行数字化服务,倾力打造“智慧图书馆”。智慧图书馆是国家大力推动文化发展大繁荣的二十一世纪图书馆发展的主要方向之一,而基于云计算的图书馆大数据服务是智慧图书馆实现的关键。此时,如何顺势而为,抢抓机遇,利用基于云计算的大数据服务优良效用,为广大受众提供无微不至、无所不及的智慧服务,就成为图书馆面临的主要任务。
   一、以云计算为基础的大数据服务内涵与本质关联
   1、内涵
   云计算特指以网络“云”为工具,将巨量数据计算处理程序解构为若干个小程序后,经多部服务器组成的系统,开展对应小程序的处理、分析,并将分析结果合并反馈给用户。现今时代的云计算已不单单是分布式计算的隶属元素,而是负载均衡、热备份冗余、效用计算、并行计算等计算机技术混合演进并跳跃升级的结果。
   大数据是一个计算机行业的术语,特指无法在特定时间范围内利用常规软件工具进行处理、捕捉、管理的信息资产。其具有多样化、低价值密度、巨量、高增长率的特点,对数据处理者的决策力、流程优化能力、洞察发现能力均具有较高的要求[1]。
   2、本质关联
   现今时代,大数据与云计算技术已成为计算机领域备受关注的焦点技术。前者仅涉及处理海量数据,后者则涉及了基础架构,但均具有简化功能,可以服务优化提供有益结果[2]。大数据与云计算的关联可以从IaaS(基础设施即服务)在公共云内、私有云中的PaaS(平台即服务)、混合云中的SaaS(软件即服务)进行分析。其中IaaS在公共云内主要指利用云服务,大数据可以为人们提供访问无限存储的服务,降低管理基础成本;私有云中的PaaS主要指PaaS供应商将大数据纳入服务中消除处理管理单个软件、硬件元素的复杂性需求;混合云中的SaaS则指SaaS供应商为社交媒体数据分析提供了出色的平台。从本质上而言,云计算可以通过灵活伸缩的自助服务应用程序,启动“即服务”模式,整合来源众多的数据,促使大数据分析更加完善,管理负载更加轻便,分析成本更低,安全隐私性更好,价值更高[3]。
   二、以云计算为基础的图书馆大数据服务架构设计
   1、总体架构设计
   以云计算为基础的图书馆大数据服务架构需要与云技术特征框架相结合,进行基于IaaS、SaaS、PaaS的集成设置。具体如下:
  
   图1 以云计算为基础的大数据服务架构
   如图1所示,IaaS是以云计算为基础的大数据服务架构基础层,包括虚拟化管理、云存储、超级计算等若干个物理平台,可以通过分布式处理以及虚拟化技术,为智慧图书馆服务提供硬件支撑;PaaS包括分布式大数据计算、分布式大数据存储两个部分,需要在基础物理层的支持下,将互联网云资源服务转换为可以编程的接口,为更富商业价值的资源开发提供依据;SaaS主要是访问端口,包括大数据分析与决策、分布式大数据挖掘、可视化展现几个模块,权限范围内的读者、图书馆职能部门均可以经过移动客户端访问[4]。
   2、功能架构设计
   以云计算为基础的图书馆大数据服务主要包括图书馆战略决策、职能部门服务决策、读者需求分析与预测等几个功能。其中图书馆战略决策需要在图书馆QOS评估支持下,在以基础设施即服务的分布式系统架构内,开展弹性云计算及可视化分析;职能部门服务决策则需要以智能化服务报告为目标,在软件既服务的云空间内开发大数据应用程序,计算实时流;读者需求分析与预测则指在虚拟私有云支持下,以虚拟化资源为对象,开展语境搜索,并进行大数据的整合、清洗、过滤、价值提取操作,了解不同馆藏资源对应的读者群或者读者反馈情况,为服务质量提升提供依据。
   三、以云计算为基础的图书馆大数据服务实现途径
   1、数据采集
   图书馆大数据云服务平台从本质上而言是采用大数据分布式集群技术架构,以Hadoop技术为基础,搭建数据计算平台体系,形成一整套数据处理、应用工具。为保障数据平台运行效率,在数据采集模块,图书馆可以云计算为基础,进行存储、主机、网络、备份、系统软件的统一构架,为大数据项目提供更加全面、更加完善的基础设施服务。
   在以云计算为基础的统一构架搭建完毕之后,图书馆可以不同类型业务系统数据等自有系统数据体系以及与数据填报系统相关的馆情指标体系、区域公共数字文化工程项目应用为数据采集源头。从不同类型以数据访问接口为基础的系统入手,开展基础数据采集。以江苏省公共图书馆为例,其数据来源主要包括项目基础数据、全省馆情指标数据两类。前者主要指图书馆自有系统数据内容,包括图创系统、图星系统、汇文系统、Aleph500、力博系统等与馆藏、读者、流通、书目、订购等核心数据库表相关的系统;后者则是设计一套涵盖功能布局、场馆建筑、馆藏资源、设备设施、机构信息、读者服务、人员经费等与图书馆事业开展情况相关的指标体系,采集公共图书馆、社区图书馆等合作分馆、流通点数据,并每间隔12个月进行一次基本馆情数据的更新,以便更加系统的判断大数据服务能力。
   2、处理及云储存
   在数据采集后,可以利用数据ETL处理工具,对采集的数据进行转换、分析、清晰、加载、集成处理[5]。同时将与读者行为、馆藏资源相关的数据信息进行规范化、完整性校验以及标准化、归一化处理,保障数据可以达到优质水平。具体操作时,图书馆不仅需要对读者状态、馆藏文献类型、复本数据、借阅信息等数据字段进行统一化处理,而且需要利用MARC解析构建统一的字段形式。同时设置馆藏的规则,配置中心标准化,为异常数据清洗、数据去重、数据合并提供良好的条件。
   在数据信息归一化处理后,可以开展数据存储。即在HDFS分布式文件系统应用的基础上,将归一化处理后的读者行为、访问时间、馆藏资源信息存储在HBase高性能、面向列分布式数据库内。为顺利将异构图书馆系统数据库内的馆藏、书目、流通数据导出、读者合并处理至系统数据仓库内,图书馆应尽量利用整合、分析、映射手段,将多个系统、多个数据库、多个表结构构建为统一的仓库结构,并在后台对用户手机号、身份证号、名称等隐私信息进行DES数据加密。
   3、可视化展现
   在云空间内,利用Spark工具,开展内存级服务数据的批量化处理。具体数据包括图书馆资源结构、资源发展、资源标签的特征提取以及资源群体画像、个体画像。同时经Spark Steaming与相关业务有机关联,结合读者对云空间的访问行为、借阅行为历史分析结果,进行借阅量、资源访问量、热点资源、借阅率的汇总分析,在保障大规模流式数据处理系统的高效率运用的同时,为资源服务布局、资源采购、资源优化调整提供数据支持。进而根据业务主题,开展多维度大数据挖掘、剖析,经丰富动态的可视化图表在多终端可视化平台上展现结果[6]。比如,在云空间内,对读者、资源、馆情、时间等指标数据开展个性化分析、聚类分析或分类分析,经云空间与可视化平台接口开发,实现区域内纸质文献的统一检索、馆情指标数据采集以及读者阅读数据的终端分析查询、大屏幕展示。其中在读者属性信息、活跃程度、行为信息、价值个性化分析方面,图书馆可以依据读者自然属性(籍贯、性别、年龄等)以及图书馆属性特征(读者状态、读者类别等),利用数据推荐与挖掘算法,挖掘读者行为信息数据(借阅行为、资源阅读特征、检索行为、阅读偏好等)。根据挖掘结果开展群体用户画像、个体用户画像,判断用户类型与相关文献吸引力关注度,或者判断读者行为找寻其他相似行为读者群体倾向,为业务主题范畴拓展、服务维度重构提供依据。
   在这个基础上,图书馆可以依托云系统,设计数据标签体系,进行读者、资源等数据分析结果进行自定义标签管理。在自定义标签管理工作开展一段时间后,以读者属性标签、资源属性标签为对象,开展关联分析,并将关联分析后的精细化标签融入某一标签下一级别体系内,更加全面地发现读者个性化服务需求以及资源服务价值特征。
   总结:
   综上所述,云计算应用基础上的图书馆大数据服务是以高质量的全媒体资源为核心,在现代化、智能化、巨量化数据资源推动下,实现馆员与受众的同步感知,切实助力图书馆创新形态发展。因此,图书馆可以受众需求为根本出发点,以数字化发展为本质追求,以巨量数据共享为最终目标,发掘云计算技术优势,智能化调动馆内服务资源,实现图书馆服务价值的最大化,提高受众群体综合满意度。
  
   参考文献:
   [1] 陆康. 智慧服务环境下高校图书馆大数据应用价值研究[J]. 高校图书馆工作, 2019(005):36-41.
   [2] 徐芳, 马丽. 图情档领域大数据的研究现状与发展趋势分析[J]. 图书馆研究与工作, 2020(002):12-17.
   [3] 刘中研, 杨清云. 大数据背景下基于云计算的图书馆信息服务变革与创新[J]. 内蒙古科技与经济, 2019(013):160-161.
   [4] 云明向, 郑杨. 基于用户大数据的图书馆有效服务框架及实施策略[J]. 图书馆工作与研究, 2020(8):75-81.
   [5] 徐秀娟. 探析个性化服务在图书馆大数据时代下的应用[J]. 智库时代, 2020(002):111-112.
   [6] 晁阳. 大数据时代师范类院校图书馆智慧服务研究——以陕西学前师范学院图书馆为例[J]. 知识经济, 2020(009):5-6.
  
   作者简介:邓新龙, 男 ,(1962年11月出生),汉族,四川省岳池县人, 新疆应用职业技术学院图书馆,在职研究生结业, 副研究馆员;研究方向:现代图书馆管理;

返回顶部