刊名:中国中医药图书情报杂志
曾用名:中国医学文摘·中医
主办:中国中医科学院中医药信息研究所
主管:国家中医药管理局
ISSN:2095-5707
CN:10-1113/R
语言:中文
周期:双月刊
影响因子:0
被引频次:1335
期刊分类:图书情报
期刊热词:
图书馆,中医药,中医,大数据,中医药院校,文献计量学,数字图书馆,文献计量分析,投稿须知,互联网,
0 引言
图书情报学科每年都会有成千上万的论文发表刊登,图书情报工作人员则需要掌握比较详细的、准确的所有图书情报学科的数据,如涉及的专业范畴、内部构架和发展趋势等[1]。面对如此大量的论文,想要获取全面的信息,单纯地依赖于个人的阅读时间是不可取的[2]。近年来,根据共词分析和网络分析,提出一种新的解析方法,即定量分析。目前我国图书情报领域的服务主要还停留在基于数量规模的信息服务层面上。毫无疑问,借助先进的理念与技术,升华传统图书情报领域数据挖掘方法,转变传统挖掘模式,重构挖掘体系,提高挖掘精度,以更好的方法对所需图书情报数据进行挖掘。利用读者在数字图书馆的各种行为为基础,通过收集读者的浏览、定制、检索、下载等记录来进行研究,从而建立图书情报数据库;同时根据图书情报数据的开发,以数据库的形式将图书检索信息进行存储[3]。该平台采用元搜索技术对图书馆各种图书情报数据库、网络资源等进行搜索,再通过信息关注机制,对满足需求的数据进行选择。并用设定的方式方法将图书情报数据进行传输,建立反馈机制,允许相关人员进行人工选择和评价;然后将读者所需信息储存在数据库中,供数据挖掘所用。
1 图书情报数据挖掘处理平台设计
图书情报数据挖掘处理平台主要由7大模块组成,分别是数据解析模块、数据采集模块、接口模块、图书情报数据过滤模块、图书情报搜索引擎、图书情报数据推送模块和数据挖掘模块。数据解析模块重点是对通过需求规约工具得到的图书情报数据挖掘对象进行描述和挖掘策略相关文件[4]。数据采集模块与预处理模块主要是依据有关挖掘需求来对图书情报数据进行采集,并把采集到的图书情报数据转变为能够处理的模式。图书情报数据挖掘模块主要采用相关挖掘算法,排除掉不同算法间的差异,让挖掘算法在敏捷状态下进行挖掘工作[5]。整体平台可通过附加任务调度监控模块对挖掘任务的执行阶段进行仔细划分,保证在进行图书情报数据挖掘时可以及时得到反馈。涉及到的数据库为图书相关情报资源,根据以上分析确定平台结构如图1所示。
图1 平台整体结构Fig.1 Overall structure of platform
1.1 数据挖掘模块
数据挖掘模块主要功能是依据所选择的挖掘算法以及相关的技术参数,调用算法完成数据挖掘任务。因为整个挖掘算法的处理过程[6]都是通过数据集群运算完成的,期间不需要进行过多的操作和关注。因此,在本模块中,引入K-means算法,挖掘图书情报数据,并对挖掘结果直观有效的进行应用。
图2 数据挖掘模块Fig.2 Data mining module
1.2 数据存储模块
为了解决海量数据存储、检索和在线阅读的容量和性能问题,在有限的条件下建立高效存储平台是图书情报挖掘平台建设的重点。本平台采用分级存储的方式设计图书情报数据存储模块。第一级面向交互频繁,但I/O流量相对较小、随机存取负担较重的元数据库,采用服务器内置的SAS高速磁盘阵列平台存储和管理[7];第二级面向I/O流量较大、传输数据块较大,但访问频次较少的对象数据,采用的是基于ISCSI的IP-SAN网络接入的SATA磁盘阵列实现。
存储区域网络作为存储架构,其连接方式是采用高传输速率的光通道进行连接。在SAN中的任意节点之间提供多个备选图书情报数据转换[8],把数据保存在单独的存储活动范围内。由于采用的是独立网络,SAN可以更好地将存储设备和服务器之间频繁的数据传送与网络信息服务的信息包分割开来。不使用与IP网络冲突的网络资源[9],从而有效地消除网络瓶颈,并且能够尽量对数据共享、数据的优化管理和平台的无缝扩充进行支持。
在进行图书情报数据存储时,将获取的数据存储在平台上。该平台的存储层是一个由4个计算节点组成的集群,其利用了HDFS数据存储体系结构,将预处理后的数据或平台分析的数据以文本形式读入平台中[10]。平台为数据存储提供了强大的保护措施,平均每个情报数据都进行三次备份,能够很好地防止遇到突发事件而出现丢失图书情报数据,并且图书情报数据有附加性能,在平台发生意外故障时,能够保证后续图书情报数据存储无误。
1.3 数据解析模块
数据解析模块是此平台第二主要的功能模块,它包括用户聚类模块和用户行为分析模块两大类。本平台利用用户兴趣对用户进行分类汇总。当用户频繁访问图书情报数据的某个页面或在某个页面上停留较长时间时,表明用户对此类图书情报数据兴趣度很高[11]。在本文中,会使用这种兴趣度来对图书情报数据进行聚类解析。在同一时间,利用序列化模式挖掘算法和图书情报数据经常被访问的途径,针对该途径获取的图书情报数据进行解析工作。
文章来源:《中国中医药图书情报杂志》 网址: http://www.zgzyytsqbzz.cn/qikandaodu/2020/0811/420.html
中国中医药图书情报杂志投稿 | 中国中医药图书情报杂志编辑部| 中国中医药图书情报杂志版面费 | 中国中医药图书情报杂志论文发表 | 中国中医药图书情报杂志最新目录
Copyright © 2018 《中国中医药图书情报杂志》杂志社 版权所有
投稿电话: 投稿邮箱: