无论是在学校还是在社会中,大家肯定对论文都不陌生吧,论文可以推广经验,交流认识。还是对论文一筹莫展吗?下面是小编辛苦为大家带来的数据挖掘技术论文范文【通用8篇】,您的肯定与分享是对小编最大的鼓励。
[关键词]数据挖掘数据挖掘方法
随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。
一、数据挖掘的定义
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
数据挖掘技术是近些年发展起来的一门新兴学科,它涉及到数据库和人工智能等多个领域。随着计算机技术的普及数据库产生大量数据,能够从这些大量数据中抽取出有价值信息的技术称之为数据挖掘技术。数据挖掘方法有统计学方法、关联规则挖掘、决策树方法、聚类方法等八种方法,关联规则是其中最常用的研究方法。关联规则算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指从海量数据中挖掘出有价值的能够揭示实体和数据项间某些隐藏的联系的有关知识,其中描述关联规则的两个重要概念分别是Suppor(t支持度)和Confi-dence(可信度)。只有当Support和Confidence两者都较高的关联规则才是有效的、需要进一步进行分析和应用的规则。
二、使用Weka进行关联挖掘
Weka的全名是怀卡托智能分析环境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免费的、非商业化的、基于JAVA环境下开源的机器学习以及数据挖掘软件[2]。它包含了许多数据挖掘的算法,是目前最完备的数据挖掘软件之一。Weka软件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四种模块[2]。其中Explorer是用来探索数据环境的,Experimenter是对各种实验计划进行数据测试,KnowledgeFlow和Explorer类似,但该模块通过其特殊的接口可以让使用者通过拖动的形式去创建实验方案,Simple-CLI为简单的命令行界面。以下数据挖掘任务主要用Ex-plorer模块来进行。
(一)数据预处理
数据挖掘所需要的所有数据可以由系统排序模块生成并进行下载。这里我们下载近两年的教师科研信息。为了使论文总分、学术著作总分、科研获奖总分、科研立项总分、科研总得分更有利于数据挖掘计算,在这里我们将以上得分分别确定分类属性值。
(二)数据载入
点击Explorer进入后有四种载入数据的方式,这里采用第一种Openfile形式。由于Weka所支持的标准数据格式为ARFF,我们将处理好的xls格式另存为csv,在weka中找到这个文件并重新保存为arff文件格式来实现数据的载入。由于所载入的数据噪声比较多,这里应根据数据挖掘任务对数据表中与本次数据任务不相关的属性进行移除,只将学历、职称、论文等级、学术著作等级、科研获奖等级、科研立项等级、科研总分等级留下。
(三)关联挖掘与结果分析
WeakExplorer界面中提供了数据挖掘多种算法,在这里我们选择“Associate”标签下的Apriori算法。之后将“lowerBoundMinSupprot”(最小支持度)参数值设为0.1,将“upperBoundMinSupprot”(最大支持度)参数值设为1,在“metiricType”的参数值选项中选择lift选项,将“minMetric”参数值设为1.1,将“numRules”(数据集数)参数值设为10,其它选项保存默认值,这样就可以挖掘出支持度在10%到100%之间并且lift值超过1.1且排名前10名的关联规则。其挖掘参数信息和关联挖掘的部分结果。
三、挖掘结果与应用
以上是针对教师基本情况和科研各项总分进行的反复的数据挖掘工作,从挖掘结果中找到最佳模式进行汇总。以下列出了几项作为参考的关联数据挖掘结果。
1、科研立项得分与论文、科研总得分关联度高,即科研立项为A级的论文也一定是A。这与实际也是相符的,因为科研立项得A的教师应该是主持了省级或是部级的立项的同时也参与了其他教师的科研立项,在课题研究的过程中一定会有部级论文或者省级论文进行发表来支撑立项,所以这类教师的论文得分也会很高。针对这样的结果,在今后的科研工作中,科研处要鼓励和帮助教师搞科研,为教师的科研工作提供精神上的支持和物质上的帮助,这样在很大程度上能够带动整个学校科研工作的进展。
2、副教授类的教师科研立项得分很高,而讲师类教师和助教类教师的科研立项得分很低,这样符合实际情况。因为副教授类的教师有一定的教学经验,并且很多副教授类的教师还想晋职称,所以大多数副教授类教师都会申请一些课题。而对于讲师类和助教类的教师,由于教学经验不足很少能进行省级以上的课题研究,因此这两类教师的科研立项分数不高。针对这样的结果,在今后的科研工作中,科研处可以采用一帮一、结对子的形式来帮助年轻教师,这样可以使青年教师参与到老教师的科研课题研究工作中去,在课题研究工程中提高科研能力和教学能力。
3、讲师类教师的论文等级不高。从论文得分能够推断出讲师类教师所的级别不高。为了鼓励这类教师的,在今后的科研量化工作中对省级、部级的论文级别进行细化,并且降低一般论文的得分权重,加大高级论文的得分权重。并且鼓励讲师类教师参加假期培训,提高自身的科研和教学水平。
数据挖掘技术是近些年发展起来的一门新兴学科,它涉及到数据库和人工智能等多个领域。随着计算机技术的普及数据库产生大量数据,能够从这些大量数据中抽取出有价值信息的技术称之为数据挖掘技术。数据挖掘方法有统计学方法、关联规则挖掘、决策树方法、聚类方法等八种方法,关联规则是其中最常用的研究方法。关联规则算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指从海量数据中挖掘出有价值的能够揭示实体和数据项间某些隐藏的联系的有关知识,其中描述关联规则的两个重要概念分别是Suppor(t支持度)和Confi-dence(可信度)。只有当Support和Confidence两者都较高的关联规则才是有效的、需要进一步进行分析和应用的规则。
二、使用Weka进行关联挖掘
Weka的全名是怀卡托智能分析环境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免费的、非商业化的、基于JAVA环境下开源的机器学习以及数据挖掘软件[2]。它包含了许多数据挖掘的算法,是目前最完备的数据挖掘软件之一。Weka软件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四种模块[2]。其中Explorer是用来探索数据环境的,Experimenter是对各种实验计划进行数据测试,KnowledgeFlow和Explorer类似,但该模块通过其特殊的接口可以让使用者通过拖动的形式去创建实验方案,Simple-CLI为简单的命令行界面。以下数据挖掘任务主要用Ex-plorer模块来进行。
(一)数据预处理
数据挖掘所需要的所有数据可以由系统排序模块生成并进行下载。这里我们下载近两年的教师科研信息。为了使论文总分、学术著作总分、科研获奖总分、科研立项总分、科研总得分更有利于数据挖掘计算,在这里我们将以上得分分别确定分类属性值。
(二)数据载入
点击Explorer进入后有四种载入数据的方式,这里采用第一种Openfile形式。由于Weka所支持的标准数据格式为ARFF,我们将处理好的xls格式另存为csv,在weka中找到这个文件并重新保存为arff文件格式来实现数据的载入。由于所载入的数据噪声比较多,这里应根据数据挖掘任务对数据表中与本次数据任务不相关的属性进行移除,只将学历、职称、论文等级、学术著作等级、科研获奖等级、科研立项等级、科研总分等级留下。
(三)关联挖掘与结果分析
WeakExplorer界面中提供了数据挖掘多种算法,在这里我们选择“Associate”标签下的Apriori算法。之后将“lowerBoundMinSupprot”(最小支持度)参数值设为0.1,将“upperBoundMinSupprot”(最大支持度)参数值设为1,在“metiricType”的参数值选项中选择lift选项,将“minMetric”参数值设为1.1,将“numRules”(数据集数)参数值设为10,其它选项保存默认值,这样就可以挖掘出支持度在10%到100%之间并且lift值超过1.1且排名前10名的关联规则。其挖掘参数信息和关联挖掘的部分结果。
三、挖掘结果与应用
以上是针对教师基本情况和科研各项总分进行的反复的数据挖掘工作,从挖掘结果中找到最佳模式进行汇总。以下列出了几项作为参考的关联数据挖掘结果。
1、科研立项得分与论文、科研总得分关联度高,即科研立项为A级的论文也一定是A。这与实际也是相符的,因为科研立项得A的教师应该是主持了省级或是部级的立项的同时也参与了其他教师的科研立项,在课题研究的过程中一定会有部级论文或者省级论文进行发表来支撑立项,所以这类教师的论文得分也会很高。针对这样的结果,在今后的科研工作中,科研处要鼓励和帮助教师搞科研,为教师的科研工作提供精神上的支持和物质上的帮助,这样在很大程度上能够带动整个学校科研工作的进展。
2、副教授类的教师科研立项得分很高,而讲师类教师和助教类教师的科研立项得分很低,这样符合实际情况。因为副教授类的教师有一定的教学经验,并且很多副教授类的教师还想晋职称,所以大多数副教授类教师都会申请一些课题。而对于讲师类和助教类的教师,由于教学经验不足很少能进行省级以上的课题研究,因此这两类教师的科研立项分数不高。针对这样的结果,在今后的科研工作中,科研处可以采用一帮一、结对子的形式来帮助年轻教师,这样可以使青年教师参与到老教师的科研课题研究工作中去,在课题研究工程中提高科研能力和教学能力。
近年来,我国的部队管理体系已经逐渐向着自动化方向发展,部队中各个部门都建立了一定的管理体系,也逐渐脱离了人工管理模式,实现信息现代化模式,很大程度提高了部队工作的效率,但是由于外界因素与经济发展的多样化以及人们的思维模式也在不断改变,从而出现了一些新问题,使得部队管理体系存在着一定问题:第一、关联性小、系统比较独立。现阶段,部队采购食品系统的作用以及目的比较简单,思维面也比较窄,也就是说按照清单进行食品采购时,不能充分考虑到采购人员的健康、效率等问题,不能达到最优化采购方式,因此就变得比较独立;第二,数据功能简单,可靠性不高。现阶段,部队食品采购数据只是对采购的种类与过程进行简单记录,时间一久,就会被损坏或者丢失;第三,数据分散不集中。现阶段与部队人员健康、起居饮食、训练相关的数据分散在不同系统中,使得数据变得不一致、不完整,仅仅只能进行简单查询、汇总、统计等工作,不能对数据进行多角度分析、关联等,不能为采购食品提供很好的政策支持。针对部队采购存在的问题,可以利用数据仓库以及数据挖掘技术建立多为数据库,利用数据挖掘进技术对食品采购数据进行挖掘。依据现阶段部队的实际发展情况,建立一套新数据库的成本代价比较高,因此,选用了目前社会上通用方法,对已经存在的数据进行一定改革与拓展,合理优化系统数据,成为新的数据库。并且选取对数据挖掘影响比较大的系统性分析,包括训练系统,食品采购系统、人员管理系统以及医疗卫生系统。针对食品采购采购系统建立数据模型。
二、在部队食品采购系统中的应用以及其价值评价
在部队食品采购系统实际应用工程中,其实可以运用MicrosoftSQLServerAnalysisServices来对数据进行分析,并且在数据挖掘过程中对多维数据进行描述与查找起到一定作用。因为多维数据比较复杂,增长的也比较快,因此,进行手动查找是很困难的,数据挖掘技术提供的计算模式可以很好的对数据进行分析与查找。在建设部队食品采购仓库数据的时候,数据内容主要包括了人员的健康、兵员的饮食以及训练等,进行数据挖掘主要包括以下内容:第一,把每个主题信息数据进行收集、汇总、分析等,对人员情况、健康、饮食、训练等进行合理分析;第二,多维分析数据信息。根据部队的实际情况,利用数据挖掘技术对部队人员健康、饮食、训练等数据信息进行多维分析,其中包含上钻、切片、下钻等;第三,挖掘健康与饮食之间的内在关系。根据数据库中许多面向主题的历史数据,采用数据挖掘技术进行分析与演算得到部队人员的训练和健康情况与部队饮食之间内在关系,以便于为部队食品采购提供合理的、有效的保障,从而提高部队整体人员的健康水平、身体素质以及训练质量,对提高我国部队战斗力有着深远的意义。
三、结束语
总而言之,对数据仓库及数据挖掘技术在部队食品采购系统中的应用进行分析与理解,合理的建立部队食品采集数据库,对数据仓库以及数据挖掘技术进行一定的分析,得到多维数据,发现饮食和人员健康以及训练情况的关系,为部队发展提供科学依据,对提高我国部队整体水平起到很大作用
[论文摘要]在电子商务中,数据挖掘有助于发现业务发展的趋势,帮助企业做出正确的决策。本文对目前电子商务中的Web数据挖掘方法进行了总结,并对电子商务中的Web数据对象进行了分类,对网络数据挖掘的作用进行了分析,为今后电子商务中实用Web数据挖掘软件的开发与应用提供了参考。
一、电子商务和数据挖掘简介
电子商务是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据交换和开展商务业务活动。目前国内已有网上商情广告、电子票据交换、网上订购,网上银行、网上支付结算等多种类型的电子商务形式。电子商务正以其成本低廉、方便、快捷、安全、可靠、不受时间和空间的限制等突出优点而逐步在全球流行。
数据挖掘(DataMining)是伴随着数据仓库技术的发展而逐步完善起来的。数据挖掘主要是为了帮助商业用户处理大量存在的数据,发现其后隐含的规律性,同时将其模型化,来完成辅助决策的作用。它要求从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取人们事先不知道的但又是潜在有用的信息和知识。数据挖掘的过程有时也叫知识发现的过程。
而电子商务中的数据挖掘即Web挖掘,是利用数据挖掘技术从www的资源(即Web文档)和行为(即We服务)中自动发现并提取感兴趣的、有用的模式和隐含的信息,它是一项综合技术涉及到Internet技术学、人工智能、计算机语言、信息学、统计学等多个领域。
二、Web数据挖掘对象的分类
Web数据有3种类型:HTML标记的Web文档数据,Web文档内连接的结构数据和用户访问数据。按照对应的数据类型,Web挖掘可以分为3类:
1.Web内容挖掘:就是从Web文档或其描述中筛选知识的过程。
2.Web结构挖掘:就是从Web的组织结构和链接关系中推导知识。它的目的是通过聚类和分析网页的链接,发现网页的结构和有用的模式,找出权威网页。
3.Web使用记录挖掘:就是指通过挖掘存储在Web上的访问日志,来发现用户访问Web页面的模式及潜在客户等信息的过程。
三、电子商务中数据挖掘的方法
针对电子商务中不同的挖掘目标可以采用不同的数据挖掘方法,数据挖掘的方法有很多,主要包括下面3大类:统计分析或数据分析,知识发现,基于预测模型的挖掘方法等。
1.统计分析。统计分析主要用于检查数据中的数学规律,然后利用统计模型和数学模型来解释这些规律。通常使用的方法有线性分析和非线性分析、连续回归分析和逻辑回归分析、单变量和多变量分析,以及时间序列分析等。统计分析方法有助于查找大量数据间的关系,例如,识别时间序列数据中的模式、异常数据等,帮助选择适用于数据的恰当的统计模型,包括多维表、剖分、排序,同时应生成恰当的图表提供给分析人员,统计功能是通过相应的统计工具来完成回归分析、多变量分析等,数据管理用于查找详细数据,浏览子集,删除冗余等。
2.知识发现。知识发现源于人工智能和机器学习,它利用一种数据搜寻过程,去数据中抽取信息,这些信息表示了数据元素的关系和模式,能够从中发现商业规则和商业事实。利用数据可视化工具和浏览工具有助于开发分析以前挖掘的数据,以进一步增强数据发掘能力。其他数据挖掘方法,如可视化系统可给出带有多变量的图形化分析数据,帮助商业分析人员进行知识发现。
3.预测模型的挖掘方法。预测模型的挖掘方法是将机器学习和人工智能应用于数据挖掘系统。预测模型基于这样一个假设:消费者的消费行为具有一定的重复性和规律性,这使得商家可以通过分析收集存储在数据库中的交易信息,预测消费者的消费行为。按消费者所具有的特定的消费行为将其分类,商家就能将销售工作集中于一部分消费者,即实现针对四、Web挖掘的作用
通过收集、加工和处理涉及消费者消费行为的大量信息。确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体未来的消费行为,然后对所识别出来的消费群体进行特定内容的定向营销,节省成本,提高效率,从而为企业带来更多的利润。
1.优化Web站点。Web设计者不再完全依靠专家的定性指导来设计网站,而是根据访问者的信息来设计和修改网站结构和外观。站点上页面内容的安排和链接就如超级市场中物品的摆放一样,把相关联的物品摆放在一起有助于销售。网站管理员也可以按照大多数访问者的浏览模式对网站进行组织,按其所访问内容来裁剪用户与Web信息空间的交互,尽量为大多数访问者的浏览提供方便。
2.设计个性化网站。强调信息个性化识别客户的喜好,使客户能以自己的方式来访问网站。对某此用户经常访问的地方,有针对性地提供个性化的广告条,以实现个性化的市场服务。
3.留住老顾客。通过Web挖掘,电子商务的经营者可以获知访问者的个人爱好,更加充分地了解客户的需要。根据每一类(甚至是每一个)顾客的独特需求提供定制化的产品,有利于提高客户的满意度,最终达到留住客户的目的。
4.挖掘潜在客户。通过分析和探究Web日志记录中的规律,可以先对已经存在的访问者进行分类。确定分类的关键属性及相互间关系,然后根据其分类的共同属性来识别电子商务潜在的客户,提高对用户服务的质量。
5.延长客户驻留时间。在电子商务中,为了使客户在网站上驻留更长的时间就应该了解客户的浏览行为,知道客户的兴趣及需求所在,及时根据需求动态地向客户做页面推荐,调整Web页面,提供特有的一些商品信息和广告,以使客户满意。
6.降低运营成本。通过Web挖掘,公司可以分析顾客的将来行为,进行有针对性的电子商务营销话动,可以根据关心某产品的访问者的浏览模式来决定广告的位置,增加广告针对性,提高广告的投资回报率。可以得到可靠的市场反馈信息,降低公司的运营成本。
7.增强电子商务安全。Web的内容挖掘还包括挖掘存有客户登记信息的后台交易数据库。客户登记信息在电子商务话动中起着非常重要的作用,特别是在安全方面,或者在对客户可访问信息的限制方面。
8.提高企业竞争力。分析潜在的目标市场,优化电子商务网站的经营模式,根据客户的历史资料不仅可以预测需求趋势,还可以评估需求倾向的改变,有助于提高企业的竞争力。
五、小结
本文介绍了在电子商务中可以被用来进行数据挖掘的数据源,以及可用于电子商务中的基于Web上的几种数据挖掘技术。将数据挖掘技术应用于电子商务,对这些数据进行挖掘,可以找出这些有价值的“知识”,企业用户可以根据这些“知识”把握客户动态,追踪市场变化,做出正确的针对性的决策,比如改进网站、向各类用户推出个性化的页面,或者向高流失客户群提供优惠政策进行挽留等等。但是在电子商务中进行Web的数据挖掘时还有很多问题需要解决。例如,如何解决不同国家不同地区存储Web数据的语义不一致性,如果提供更安全、快捷的服务方面还有很多工作要做。
参考文献:
[1]郝先臣张德干尹国成赵海:用于电子商务中的数据挖掘技术研究。小型微型计算机系统[J].2007(7)786~787
[2]赵焕平等:WEB数据挖掘及其在电子商务中的应用。福建电脑[J].2008(1)167
[3]石岩:Web挖掘技术在电子商务中的应用。科技情报开发与经济[J].2006(7)235~236
[4]凌传繁:Web挖掘技术在电子商务中的应用。情报杂志[J].2006(1)93~94
目前现有的针对烟草营销策略的研究,多采用数据挖掘的思想,基于数据挖掘的营销策略是对终端客户进行分类,根据用户的销量和诚信记录把用户分为多个等级,但这种分级策略只能反应用户的销量信息,把这个分类作为营销策略依据太单薄,只能起一定的辅助作用。更深入地研究是根据客户的资料和历史订单数据对现有商户进行聚类,获取到自主的商户分类,但盲目的聚类会导致商户的分类没有实际意义,或获取的结果是无助于营销目的的。
2技术关键
本系统采用基于营销目的的商户聚类,技术关键包括三部分内容:数据预处理中的特征选择、基于限制目标的商户精确聚类和基于聚类结果的多层关联规则算法的研究。
2.1特征选择
假定获取的数据的维数为n,通常情况下n是很大的一个数,为简化模型,也为了防止模型陷入过拟合(维数灾难),需要进行降维处理,即仅把对项目改造判定起关键作用的因素挑选出来。本系统采用PCA算法来进行降维处理,过程如下:
1)计算标准化后的矩阵Z的样本的协方差矩阵Cov;
2)计算协方差矩阵Cov的本征向量e1,e2,…,en的本征值。本征值按大到小排序;
3)投影数据
到本征矢张成的空间之中,利用贡献分析取前m个向量Y1,Y2,…,Ym。
2.2基于营销目标限制的商户精确聚类算法
现有聚类算法一般没有约束条件,只根据相似度来进行聚类,为了能够体现约束条件,需要在聚类相似度或者样本距离之间把限制条件增加进去,这样在样本聚类的时候即可使得具有相同营销特性的样本或者客户被划分到同一个类中。烟草终端商户的大部分属性是分类属性,例如:地区、类别等,此外还有数字型属性、日期型属性,由于存在不同类型的属性,常规的聚类算法无法使用,为此,采用把数字属性和日期属性划分区间的思路,这样可以转化成分类属性的方式来进行聚类。进而可建立如下商户模型:分类对象X∈Ω,X=[A1=x1]∧[A2=x2]∧…∧[Am=xm],其中xj∈DOM(Aj),1≤j≤m,为简便起见,将对象X∈Ω用向量(x1,x2,…,xm)表达,如果属性Aj的值不存在,则Aj=ε。令Χ={X1,X2,…,Xn}为n个分类对象的集合,用集合方式表达分类对象,则Xi={xi,1,xi,2,…,xi,m},如果属性Aj的值不存在,则集合中不出现xi,j,容易得到|Xi|≤m。如果存在Xi,j=Xk,j,1≤j≤m,则Xi=Xk。为方便聚类,利用聚类汇总来压缩原始数据,从而达到提高算法效率的目的。一个类C可以由如下三元组(n,I,S)来表示。其中n为类C中的对象数量,I={i1,i2,…,iu}是C内所有属性值的集合,S={s1,s2,…,su},其中sj为ij在类C中的数量,ij∈I,1≤j≤u。集合S按升序排列,即s1≤s2≤…≤su,这同时也暗示集合I的元素按其在C中的数量按升序排列。三元组(n,I,S)被称作类C的聚类汇总CS,CS的三个成员分别记作CS.n、CS.I和CS.S;对于CS.I的任一元素ij∈CS.I,则记作CS.I.ij,对于sj∈CS.S,则记作CS.S.sj,其中1≤j≤u。
2.3基于烟草营销的多层关联规则的研究
针对本项目,对关联规则定义进行扩展,对形如:XY的关联规则,不再限定X和Y为一个项目集,而把X和Y定义为条件的合取范式,每个条件Ai=True/False为布尔表达式。此时的Ai为一个项目集,它的含义与原来的X和Y的含义相同,如果把结果中的条件布尔表达式写成Cj=True/False,则关联规则有如下形式:(A1=True/False)∧(A2=True/False)∧…∧(An=True/False)(C1=True/False)∧(C2=True/False)∧…∧(Cm=True/False)关联规则的开采问题可以分解成以下两个子问题:
①从数据集合或交易集合D中发现所有的频繁项目集。
②从频繁项目集中生成所有置信度不小于用户定义的最小置信度minconf的关联规则。即对任一个频繁项目集F和F的所有非空真子集S,SF,如果sup(F)/sup(F-S)≥minconf,则(F-S)S就是一条有效的关联规则。按上述方法发现所有类似的规则。这两个步骤中第2步要相对容易,因此项目的研究将更关注第1步,由于最大频繁项目集已经隐含了所有频繁项目集,所以可以把发现频繁项目集的问题转化为发现最大频繁项目集的问题。针对烟草营销的客户,进行关联规则挖掘时,是在上一步的基础上,即针对每一个商户群进行规则挖掘。在获取到最大频繁项目集后,顺序生成频繁项目集,然后获取到可用的关联规则。此时获取的关联规则是底层关联规则,然后再采用概念树的方法对获取的底层关联规则进行汇总。概念树由烟草领域专家根据属性的领域知识提供,按特定属性的概念层次从一般到具体排序。树的根结点是用any表示最一般的概念,叶结点是最具体的概念即属性的具体值。
1.1安全技术资金不足
煤炭的持续开采会受到地质条件的直接影响,过去国家投入众多的设施,使用至今均已出现老化,并且维修量非常大。随着矿井的不断延深,矿压极度强化,巷道的维修任务更是不断的增加,矿井的供电以及通风、提升与排水等都不能适应生产的需要。
1.2安全管理模式传统
与西方发达产煤国家相比较,我国的煤矿使用技术研究起步很晚。并且人力、财力非常缺乏,某些重大的安全技术问题,比如冲击地压以及煤和瓦斯的突出、地热以及突水等灾害不能进行有效的预测和控制。且受到以往传统运营思想的直接作用与影响以及各个企业的经济实力的约束,我国的煤矿生产装备和安全监控设施相对落后。井巷的断面设计以及支护强度的确定、支护材料的型号选择较小。生产设施功率以及矿井的供风量等富余参数非常低,极易出现事故。绝大多数的煤炭企业还是利用以往传统的安全管理模式,各种报表计算仍是靠人工劳动并且精确度很低。信息传送的时间较长,且速度较慢,管理者的工作重复性很大,资料查询十分困难,并且工作效率很低。安全检查以及等级鉴定等总是凭借主观意念以及相关的经验。
1.3安全信息管理体制不健全
安全信息可以说是安全管理工作的重要依据,它主要包括事故和职业伤害的有效记录与分析统计,职业的安全卫生设施的相关研究与设计、生产以及检验技术,法律法规以及相应技术标准和其变化的动态,教育培训以及宣传和社会活动,国内的新型技术动态以及隐患评估与技术经济类分析和咨询、决策的体系。信息体制的健全是安全体制工程以及计算机技术的有效结合,可促使安全工作转型为定性和定量的超前预测,不过大多数矿井还是处于起步与摸索阶段,并未呈现出健全的体制,真正的使用还有待进一步的发展。
2空间数据挖掘技术
数据挖掘研究行业的持续进展,开始由起初的关系数据以及事务数据挖掘,发展至对空间数据库的不断挖掘。空间的信息还在逐渐地呈现各类信息体制的主体与基础。空间数据挖掘技术是一项非常关键的数据,具有比普通关系数据库和事务数据库更丰富、复杂的相关语义信息,且蕴含了更丰富的知识。所以,虽说数据的挖掘最初是出现在关系数据挖掘以及事务的数据库,不过因为空间数据库中的发掘知识,这就很快引起了各个研究者的关注与重视。很多的数据挖掘类研究工作都是从关系型以及事务型数据库拓展至空间数据库的。在地学领域中,随着卫星以及遥感技术的不断使用,逐渐丰富的空间以及非空间的数据采集与储存在较大空间数据库中,大量的地理数据已经算是超过了人们的处理能力,并且传统的地学分析很难在这些数据中萃取并发现地学知识,这也就给现阶段的GIS带来了很大的挑战,急切的需要强化GIS相应的分析功能,提升GIS处理地学实际状况的能力。数据挖掘以及知识发现的产生能满足地球空间的数据处理要求,并推进了传统地学空间分析的不断发展。依据地学空间数据挖掘技术的特性,把数据挖掘的方式融进GIS技术中,呈现地学空间数据挖掘技术和知识发展的新地学数据分析理念与依据。
3煤矿安全管理水平的提升
3.1建设评价指标体制库
评价指标体制库是矿井的自然灾害危害存在的具体参数式的知识库。模型的组建务必要根据矿井的瓦斯以及水害等自然灾害危害呈现的不同指标体制和其临界值构建一定的指标体制库,危害的警报识别参数关键是采掘工程的平面图动态开采面以及相应的巷道。各种瓦斯的危害以及水害隐患和通风隐患均呈现一定的评价指标库。
3.2构建专业的分析模型库
依据瓦斯以及水害等诸多不同的矿井自然灾害类别构建相关的专业性模型库,比如瓦斯的灾害预测,应根据矿井的地质条件以及煤层所赋存的状况构建瓦斯的地质区分图,再根据采掘工程的平面图动态呈现的采掘信息以及相应的瓦斯分区构建关联并实行相应的比较分析,确定可以采集区域未来的可采区域是不是高瓦斯区域。
3.3构建以GIS空间分析为基础的方法库
GIS空间分析可以说是矿井自然灾害的隐患高度识别的关键性方式,并且还是安全故障警报的主要路径。比如断层的防水层的有效划分,关键是根据断层的保安煤柱来实行可靠的确定。断层的保安煤柱确定可以利用GIS缓冲区域的分析得到。空间的统计分析以及多源信息有效拟合和数据挖掘亦是瓦斯和水害等安全隐患监测经常使用GIS空间分析方式,如物探水文的异常区域确定以及瓦斯突出相应的危险区域确定。
3.4决策支持体制与煤矿管理水平评价指标
体制库以及模型库、方式库与图形库均是矿井的自然灾害隐患识别和决策的最基础。利用矿井的自然灾害隐患识别决策来支持体系具体的功能呈现矿井的自然灾害隐患识别以及决策分析,在根源处提高煤矿的安全管理水平。分类构建矿井的自然灾害实时监控体系,进行动态跟踪相应的灾害实时数据,并事实呈现矿井的自然灾害数据或是信息和自然灾害的指标体系库以及模型库与知识库、空间数据库的合理化比较,并运用图形库的数据再通过GIS空间分析方式来确定安全隐患的,矿井自然灾害的隐患实时警报并进行决策分析,以提交空间数据的自然灾害隐患识别以及分析处理的决策性报告。
4结语
随着矿山持续的深化及开展,矿区的历史以及实际数据量会日益增多,数据的处理会越来越困难。数字化矿山可以说是数字地球的主要构成,亦是呈现矿山可持续发展与矿业可持续发展的关键性决策,是呈现矿山、矿区信息化管理的重要基础。
关键词:4G环境;移动通信;网络优化;数据挖掘
随着我国的移动信息力量不断发展,目前社会已进入了4G的通讯时代。4G环境下,移动通信网络实现了实时的更新与扩大,同时人们对于移动网络的使用要求也越来越高。如果不及时对移动通信网络进行更新优化,4G网络将无法发挥力量,进一步为社会与人们服务。因此,为深化4G网络的使用,必须对其数据进行深度挖掘与分析,从而找寻更好使其为人们服务的途径与方法。
1关于数据挖掘技术的问题分析
1.1数据挖掘的概念。数据挖掘技术是目前我国一类新兴的互联网科技技术,其运用基于目前的大数据时代形势下。数据挖掘的实质是对巨大的信息量,通过后台的整合处理,找寻具有一定规律的数据并对其深入分析,找寻各组数据之间的联系,对后续可能潜在产生的数据进行预测。因此,数据挖掘在目前信息量庞大的现代网络社会而言,具有找寻各组数据的关联性,发现人们潜在需求的重要作用,是进一步优化4G网络通讯与使用的重要依据。1.2数据挖掘的分析方法。数据挖掘的方法较多,通常情况下使用以下三类方法进行具体的挖掘工作。首先,分类分析法是最常用的一类数据挖掘方法。该方法需要技术人员对所有的数据进行初步筛选,并依据其特点做好标记的工作。在第一次筛选工作完成后,对其进行先前以标记分类的数据进行二次筛选,根据其特点再一次筛选。重复筛选的工作直至得到符合技术人员需求的规模后,在对其同类型的数据进行定点分析,找寻其规律后根据其特性对4G网络进行优化工作。其次,通常使用关联分析法进行数据挖掘的工作。所谓关联分析法,是指对人们使用4G网络的情况排查,分析其使用某数据时与其关联的数据,找寻二者的规律与相似处,并以此为依据对4G网络的使用进行进一步优化调整。关联分析法的优势是更贴合人们的需求,能够基于人性化的基础上对4G网络进行调整。最后,序列分析法也是常用的数据挖掘方法。其原理类似于分类分析法,但其采用的方法是先由技术人员对所有需要分析的数据进行采集编号,然后由计算机对其数据根据序列的不同进行分析工作。相较于分类分析法,尽管其人性化程度较低,但其分析的速度是常用的数据分析法中速度最快的。因此,技术人员同时使用序列分析法对数据进行第一次筛选与分析的工作后,根据情况具体使用分类分析法或关联分析法进行具体的筛选工作。
24G移动通信网络的特点分析
2.14G移动通信网络的移动性特点。4G网络通常情况下是使用在可移动的电子设备如手机、平板电脑等,因此其首要特性是区别于传统的计算机互联网,其可移动性较强。因此,其使用的过程中对固定的宽带使用不作要求,只需求我国的移动通信机电站支持。在我国移动网络建设较为完善的前提下,4G网络几乎可覆盖整个国家并且24小时提供支持。故而对其的分析工作要充分考量其移动性与实时性,可根据其广泛的区域性与时效性进行分析,进一步做好其优化调整工作。2.24G移动通信网络的使用结构庞大。4G网络通讯是一项面对多用户的网络系统,同时用户能够基于4G网络的支持产生联络与影响,因此其使用结构十分庞大。在对其数据挖掘的过程中,要注意用户之间的联动影响,同时通过对其之间的联动找寻数据应有的特点与联系,进一步做好其优化调整工作。此外,由于移动通信系统要与卫星通信网和市话网以及数据网等进行网络互联,从而使得整个网络结构变得更加复杂。
3数据挖掘在4G通信网络优化中运用原则
3.1实现通信网络的智能性原则。移动通信网络是一项非常庞大与复杂的系统,为更好帮助4G移动通信网络的优化与使用,首先必须做到智能性使用原则。所谓智能性原则,是指技术人员利用好互联网计算机科技的力量,对社会使用4G网络过程中产生的数据进行有效合理的筛选,而非盲目对其进行筛选与分类工作。同时,在对其进行初步的筛选后,要对其进行详实的分析后在进行下一步骤的分析与筛选,不可盲目进行分析,应当遵循智能化的原则。3.2分布式处理原则。由于数据量大,故而对其进行全盘分析是不切实际的,数据挖掘工作应当秉持分布式处理原则。首先,为更高效地分析数据提高分析的准确率,其数据分析工作不能只挂载在一个网络服务器上,除了根据时间为服务器分类的原则以外,还可以根据地点的区分或使用人群的不同选择服务器。同时,分布式处理原则除了需要使用不同的服务器对其数据进行分析以外,还需要利用不同的方法对数据进行处理。除了前文中提及的方法以外,技术人员可对部分重要的数据进行多重方法的分析,以期获得更为准确的反馈更好进行优化调整。
44G环境下数据挖掘在移动通信网络中的应用对策
4.1帮助进行合理的站点选择。4G网络是移动电子设备使用的互联网技术,其使用仅依靠由移动通信的供应商设置的基站接入网络。而移动站点的运营成本相对较高,同一个站点可承载的用户数量也有限,因此如何建设站点成为我国各大移动通信供应商需要考量的重要问题。而通过数据挖掘的工作,能够对使用4G的用户数量、使用高峰时间、使用低峰时间进行合理的分析,更好给予移动通信供应商参考,帮助其进行站点的规划建设。同时,在站点的使用过程中必然会出现一定的维修检查工作,为更好帮助移动通信商,为使用4G用户提供更好的服务,通过对其数据的分析挖掘,移动通信商可选择站点的维护时间,减少用户的损失。4.2帮助进行合理的干扰分析。4G网络在使用的过程中容易接受到其他如电磁波、磁场等影响与干扰,而通过数据挖掘能够较好地帮助移动通信商定向分析干扰4G使用的干扰源,并以此为依据对其进行优化调整,以期向广大用户提供更为稳定高效的4G网络。同时,技术人员可以对其使用过程中的数据分析,找寻用户使用程度高的信息、数据,一定程度上调度其使用频率与开放的通道,保障在尽力排除干扰的前提下使得用户使用频率更高的信息得以较好使用。4.3帮助进行合理的掉话分析。在4G网络使用的过程中,掉话现象与干扰现象都给予用户非正常的使用体验。数据挖掘的工作不仅能够对信息的特点进行分析,还能够对错误的信息进行筛选分类。首先,移动供应商可根据错误的信息,找寻其网络传播过程中的不足并找寻错误的原因,根据错误的原因进行优化调整。其次,针对信息丢失的情况,移动供应商可在数据挖掘过程中找寻丢失的去向或丢失信息的部分。除了可将丢失的信息还原以外,对于部分难以找寻的信息,需要对其传播通道进行修复调整,帮助用户拥有流畅的4G网络使用体验。4.4帮助进行合理的切换分析。非4G移动网络的使用在市场上仍然有一定的占有率,而通过对数据的挖掘,可以帮助移动通信商进行切换分析。首先,通过数据的挖掘移动通信商可对用户进行判断,分析其主动进行数据切换的原因,进行对网络的调整优化。其次,移动通信商可以通过对用户非主动的网络切换原因进行分析,排查4G网络在使用过程中导致其波动的原因并对其进行优化工作,以期给予用户更好的使用体验。最后,4G网络并不是移动通信网络的最终形态,其仍然需要进一步的更新与优化,通过对目前现有信息数据的分析使用,做好未来网络切换的预备工作,更好优化其切换的过程与使用体验。4.5帮助进行合理的分布分析。目前我国4G网络的分步率非常高,我国95%以上的土地都能够流畅使用4G网络,但其分布使用网络覆盖的问题仍然需要移动网络供应商进一步的优化工作。通过对数据的挖掘与分析,能够较好地帮助移动通信商优化通信基站的布局,使得网络覆盖率更好提高,保障区域的使用网络顺畅。同时,部分4G网络使用频率较高的区域,经常发生网络拥堵、基站无法完全满足用户的使用要求的现象。而通过数据的挖掘工作,能够更好检测基站的承载力,以此对基站做扩大或再造的工作。同样,针对基站承载力溢出过多,4G网络使用用户较少的现象。移动通信商可适度调整其基站的使用情况,减少其服务器的使用数量,优化其服务质量。
5结束语
随着我国信息技术的不断发展以及4G技术的不断推广与应用,加上市场竞争的不断激烈化与人们生活水平的不断提高,促使人们对于网络的要求也越来越高,移动通信商只有进一步优化技术,遵循数据挖掘的选择,使用恰当合理的方法进行工作,才能做好4G网络的调整工作,给予人民群众更好的网络使用体验,更好向社会贡献自己的力量,提供更为优质的服务。
参考文献:
[1]邓波,黄同成,刘远军。基于4G移动网络的大数据与云计算技术应用分析及展望———以城市智能交通系统为例[J].信息与电脑,2015(23):28-30.
[2]本刊讯。中国移动设计院积极支撑中国移动4G规划及网络建设方案编制工作[J].中国工程咨询,2015(5):96.
[3]刘远飞,方超,刘博。4GTD-LTE移动互联网技术在监测监管数据传输中的研究[A].中国新闻技术工作者联合会“新闻科技论文”优秀论文集[C].2015.