Web日志挖掘在网络远程教学中的应用

(整期优先)网络出版时间:2019-06-04
/ 3
摘 要 随着现代信息技术在远程教育中越来越广泛的应用,网络远程教育模式正逐步成为远程教育的主流。本文对Web日志挖掘在远程教育强中应用流程进行了研究探讨,从而更好地指导了远程教育实践。

关键词 Web挖掘; Web日志; 远程教学


1 引言

在网络远程教育模式下,学生学习的过程就是在远程教育网站页面中跳转活动的过程,他们的每个活动都是对教学网站上的一个页面对象的点击操作,这些点击操作都能被完整地记录在系统日志中,通过对日志的分析挖掘,可以找出学生行为模式;在另一方面,远程教育网站的结构组织是不是符合学生和教师学习和教学的规律,通过对网站日志的分析也可以得到。所有这些都离不开数据挖掘技术,本文就是通过对远程教育Web服务器日志文件进行分析,从而进一步指导网站建设。

2 Web挖掘技术介绍

Web挖掘是针对包括Web页面内容,页面之间的结构,用户访问信息等在内的各种Web数据源。在一定基础上应用数据挖掘的方法以发现有用的隐含的知识的过程。Web挖掘与传统的数据挖掘相比有其自身的特点。Web本身是半结构化或无结构的数据,缺乏机器可理解的语义,Web挖掘的对象是大量,异质,分布的Web文档,对Web服务器上的日志、用户信息等数据所开展的挖掘工作也属于Web数据挖掘的范畴。Web信息的多样性决定了挖掘任务的多样性。按照Web处理对象的不同,一般将Web挖掘分为3类: Web内容挖掘,Web结构挖掘和Web使用记录挖掘(如图1所示),针对这3种不同的处理对象,能够挖掘出许多有用的信息。

853376823.jpg

图1 Web挖掘分类

2.1 Web内容挖掘

Web内容挖掘是指从文档的内容中提取知识。Web内容挖掘又分为文本挖掘和多媒体挖掘。目前多媒体数据的挖掘研究还处于探索阶段,Web文本挖掘已经有了比较实用的功能。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用Web文档进行趋势预测等。Web文档中的标记,例如<Title>和<Heading>等蕴含了额外的信息,可以利用这些信息来加强Web文本挖掘的作用。

2.2 Web结构挖掘

Web结构挖掘是从Web的组织结构和链接关系中推导知识。它不仅仅局限于文档之间的超链接结构,还包括文档内部的结构。文档中的URL目录路径的结构等。Web结构挖掘能够利用网页间的超链接信息对搜索引擎的检索结果进行相关度排序,寻找个人主页和相似网页,提高Web搜索蜘蛛在网上的爬行效率,沿着超链接优先爬行。Web结构挖掘还可以用于对Web页进行分类、预测用户的Web链接使用及Web链接属性的可视化。对各个商业搜索引擎索引用的页数量进行统计分析等。

2.3 Web使用记录挖掘

Web使用记录挖掘是指从Web的使用记录中提取感兴趣的模式,目前Web使用记录挖掘方面的研究较多,WWW中的每个服务器都保留了访问日志,记录了关于用户访问和交互的信息,可以通过分析和研究Web日志记录中的规律,来识别网站的潜在用户[1];可以用基于扩展有向树模型来识别用户浏览序列模式,从而进行Web日志挖掘;可以根据用户访问的Web记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据,从而为用户预取一些Web页面,加快用户获取页面的速度,分析这些数据还可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。

3 Web日志挖掘步骤

Web日志挖掘流程如图2所示:

853377623.jpg

图2 Web日志挖掘流程

3.1 Web日志记录的主要内容

Web服务器日志记录用户访问该教学网站时每个页面的请求信息。

3.2 数据预处理

Web日志挖掘首先要对日志中的原始数据进行预处理,包括依赖于域的数据净化、用户识别、会话识别和路径补充等。预处理过程是保证 Web日志挖掘质量的关键步骤。

(1)数据净化。指删除 Web服务器日志中与挖掘算法无关的数据。大多数情况,只有日志中 HTML文件与用户会话相关,所以通过检查 URL 的后缀删除认为不相关的数据。例如 ,对于一个主要包含图形文档的站点,此时就不能将图形文件删除,而是自定义一套规则将它对应到一定的HTML文件,这样就不会将一些重要的用户会话丢失。

(2)识别用户。由于本地缓存、代理服务器和防火墙的存在,使得识别用户的任务变得很复杂。一般最常被 Web日志挖掘工具使用的技术就是基于日志/站点的方法,例如可以使用了一些启发式规则帮助识别用户。1)如果IP地址相同,但是日志中表明用户的浏览器或操作系统改变了,则认为不同的代理表示不同的用户。2)将日志和网站拓扑结构结合,构造用户的浏览路径。如果当前请求的页面同用户已浏览的页面间没有链接关系,则认为存在IP地址相同的多个用户。

(3)识别用户会话。用户会话是指用户对服务器的一次有效访问,通过其连续请求的页面。我们可以获得他在网站中的访问行为和浏览兴趣。日志文件中不同的页面当然属于不同的会话。当用户的页面请求在时间上跨度较大时,就可能是该用户多次访问同一个网站。这里可以利用超时,如果两页间请求时间的差值超过一定界限就认为用户开始了一个新的会话。

(4)识别片段。在识别用户会话过程中的另一个问题是确定访问日志中是否有重要的请求没有被记录 .这就是路径补充所做的工作,解决的方法类似于用户识别中的方法。如果当前请求页与用户上一次请求页之间没有超文本链接,那么用户很可能使用了浏览器上的“BACK”按钮调用缓存在本机中的页面。检查引用日志确定当前请求来自哪一页,如果在用户的历史访问记录上有多个页面都包含与当前请求页的链接,则将请求时间最接近当前请求页的页面作为当前请求的来源。若引用日志不完整,可以使用站点的拓扑结构代替。通过这种方法将遗漏的页面请求添加到用户的会话文件中。

3.3模式发现

模式发现是运用各种算法和技术对预处理后的数据进行挖掘,生成模式。这些技术包括人工智能、数据挖掘、统计理论、信息论等多领域的成熟技术。可以运用数据挖掘中的常用技术如路径分析,关联规则、序列模式以及分类聚类等等。

3.4 模式分析

该阶段实现对用户访问模式的分析,基本作用是排除模式发现中没有价值的规则模式,从而将有价值的模式提取出来。

4 基于Web Mining的网络远程教学网站

Web Mining指在WWW上挖掘有趣的、潜在的、有用的模式和信息的过程。其主要目标则是从Web网站的访问日志记录中获取感兴趣的模式,每个Web服务器都能有访问日志文件,它记录了访问者的访问和交互的信息。通过分析这些数据可以帮助网站管理者理解用户的行为和Web结构,了解用户的浏览习惯,调整从而改进站点的设计。

4.1 Web日志信息

对于一个特定的网络远程教学网站来说,其拓扑结构是已知的,虽然不同的学习者可能有不同的访问浏览模式,但从长期统计趋势上说他们是稳定的,所以经过一段时间后会在网站上积累大量有用的信息(如用户的访问日志、注册信息、需求信息、定单信息、交流信息等),如果不加以有效利用,会造成了资源的极大浪费。如果采用Web Mining技术就可以充分利用这些有用信息,从而建立一个集智能化与个性化为一体的远程教学平台。这些数据信息包含在以下几种类型的日志文件中。

①Server log:

格式如下:

描述

日期

用户请求页面的日期

时间

用户请求页面的具体时间

用户IP

客户端主机IP地址或DNS入口

用户名

客户端的用户名

字节数

传输的字节数(发送或接受)

服务器名

服务器名称、IP地址和端口号

方法

用户请求的方法

协议状态

返回HTTP的状态标识

URL

用户请求的页面

所花时间

完成浏览所花时间

协议版本

传输所用的协议版本

用户代理

服务器提供

Cookie

Cookie 标志号

参照

用户浏览的上一面

表1 服务器日志文件中的数据格式

②Error log:

存取请求失败的数据,如:丢失连接,授权失败,或超时。

③Cookie:

由Web server产生的记号并由客户端持有,用于表示学习者和学习者的会话,Cookie是一种标记,用于自动标记和跟踪站点的访问者。

4.2 网络远程教学网站Web日志挖掘数据的预处理

从学习者的访问日志中得到的原始日志记录并不适于挖掘,必须进行适当的处理才能进行挖掘。因此,需要通过日志清理,去除无用的记录;对于某些记录,我们还需要通过站点结构信息,把URL路径补充成完整的访问序列;然后划分学习者,并把学习者的会话划分成多个事务。

4.3网络远程教学网站Web日志数据挖掘的模式发现

一旦学习者会话和事务识别完成,就可以采用下面的技术进行模式发现。

① 路径分析

它可以被用于判定在一个站点中最频繁访问的路径,还有一些其它的有关路径的信息通过路径分析可以得出。例如:70% 的学习者在访问/ E-Business /M2时,是从/EB开始,经过/ E-Business /SimpleDescription,/ E-Business /M1;65%的学习者在浏览4个或更少的页面内容后就离开了。利用这些信息就可以改进站点的设计结构。

② 关联规则

使用关联规则发现方法,可以从Web的访问事务中找到如下的相关性:40%的学习者访问页面/ E-Business /M2时,也访问了/ E-Business /M7;30%的用户在访/ E-Business /

SimpleDescription时,同时也访问了/ E-Business /reference。利用这些相关性,可以更好的组织站点的Web空间,实行有效的教学策略。

③ 序列模式

在时间戳有序的事务集中,序列模式的发现就是指那些如“一些项跟随另一个项”这样的内部事务模式。例如:在访问/E-Business /M2的用户中,有80%的人曾在过去的一个星期里用关键字“液晶显示器”在baidu上作过查询。发现序列模式,能够便于预测学习者的访问模式,有助于针对这种模式,开展有针对性的教学。

④ 分类和聚类

发现分类规则可以给出识别一个特殊群体的公共属性的描述,这种描述可以用于分类学习者。例如:在/ E-Business /M4学习过的学习者中有40%是20左右的女大学生。聚类分析可以从Web访问信息数据中聚类出具有相似特性的学习者。在Web事务日志中,聚类学习者信息或数据项能够便于开发和设计未来的教学模式和学习群体。

4.4 网络远程教学网站中Web日志数据挖掘的模式分析

模式分析是Web日志挖掘中最后一项重要步骤。其通过选择和观察把发现的规则、模式和统计值转换为知识,再经过模式分析得到有价值的模式,即我们感兴趣的规则、模式,采用可视化技术,以图形界面的方式提供给使用者。

5 结束语

进一步的工作我们可以将Web访问日志的挖掘和其他的Web内容和Web链接结构挖掘结合起来用于Web页面的等级划分、Web文档的分类和多层次Web信息库的构造等方面,总之对Web数据进行进一步的数据挖掘是非常有意义的。当然,数据挖掘所带来的好处,是与用户的需求及数据挖掘技术本身的发展相关的。在充分了解学习者的爱好、需求的基础上。利用各种Web挖掘技术,设计出能满足不同用户群体需要的个性化网络远程教学网站,从而提供给学习者更加满意的服务。

参考文献

1 韩家炜,孟小峰,王静,李盛恩Web挖掘研究.计算机研究与发展,2001,4:405~414.

2 Ha H S,Bae S M,Park S C.Web mining for distance education.IEEE,2000,2:715~719.

3 王玉珍. Web使用模式挖掘在电子商务中的应用[J].计算机应用研究,2003,10:155-157

4 宋擒豹,沈钧毅.Web日志的高效多能挖掘算法.计算机与发展,2001,3:328~333