查看: 2192|回复: 0

基于数据挖掘的智能Education系统的设计[转帖] [复制链接]

freezebb

军衔等级：

上将

注册：2005-3-2

发表于 2005-10-8 09:01:00 |显示全部楼层

一、引言
随着计算机和网络的迅速发展，教学方式也引起了很大的变化，各种基于网络的教学模式也应用而生，远程教育、多媒体教育等等。在多彩多姿的信息领域中，如何才能快速的学习到自己想要学习的常识，也成了一个令人困惑的问题，目前有很多学生，不再满足于简单、单调的课堂教学，他们需要通过快速的途径来充实自己，而不仅仅只是限于课堂常识。另外现在有很多学生对常识有很强的需求，但是苦于没有合适的学习机会，虽然，最近几年，远程教育也愈来愈多，可是还是很难满足社会市场需求。个人学习目标的不同、学习能力的不同、认知风格不同。这就决定了网络教育必定是一种个别化的教育，网络教学也必须是一种适应个别化学习需求的个性化教学。然而，现有的基于Web的教育平台并不能解决个别化学习之需求，所以也就无法对学习者实施个性化的远程学习服务。为了给每个学生提供适合他们自己的学习内容，对网站提出了很高的要求，而达到这一目标的关键技术就是数据挖掘。所谓数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含的、人们事先不知道的但又是有用的信息和常识的过程。
二、系统实现
为了克服现在网络教育的不足，更好的发挥网络教学的优势，本系统提出了一种智能化的Education系统，本系统能够根据用户的访问信息，挖掘出用户的兴趣，从而提供给用户个性化的学习内容。系统总共包含4个模块：数据组织和表示、数据挖掘系统、个性化实现和预测模型。其功能结构图如下：

1、数据组织和表示
学生在访问网站资源时，会在服务器上留下很多痕迹，这些痕迹就是大家研究学生访问规律的资源，web服务器的日志可以记录下学生访问的网页序列，同时每个学生在进行学习的时候会有一个注册信息，通过这些信息大家也可以了解学生的情况：比如学生的年龄，学生的受教育情况，学生的学习兴趣等等。网站的教学资源包含很多种类，有图片，文字，视频等很多信息。大家按不同的课程和资源类型进行分类，将所有这些教学资源采用关系型数据库的形式存储。
2、数据挖掘系统
数据挖掘系统包含数据预处理和数据挖掘算法实现2部分。由于大家所采用的数据源并非都是关系型数据库，所以在进行挖掘之前要进行数据预处理，即数据净化、学生识别、会话识别、路径补充和事务识别，整个数据挖掘流程见图2。
所谓净化是将无用的信息过滤掉，将不完整的信息补充完整。
学生识别：本系统的数据源主要有2个，一是用户的注册信息，二是服务器日志文件。对于注册用户，由于每个学生有一个用户名，用户名是唯一标识学生的身份的标志，用户名不允许重复，所以另外考虑到有很多学生可能在没有了解大家的网站之前，不愿意注册，所以大家除了提供用户名识别之外，还允许学生不进行注册的学习方式，由于在日志文件只是记录了主机或代理服务器的IP地址，不能精确的识别非注册用户，大家借助于cookie技术以及启发式规则来识别非注册用户。
会话识别在时间区段较大的Web服务器日志中，用户有可能多次访问该站点。会话识别的目的就是将用户的访问记录划分成单个的会话。一般采用超时识别，如果用户请求的页面之间的时间超过一定间隔，则认为用户开始了一个新的会话。
路径补充确认Web日志中是否有重要的页面访问记录被遗漏，这个问题的产生是由于Cache的存在所致。路径补充的任务就是将这些遗漏的请求补充到用户会话文件之中，也可以根据引用日志和网络拓扑结构提供的信息把路径补充完整。
事务识别事务识别就是将用户会话分割为割为更小的事务，也就是用户会话中的每一次前进浏览的第一页到回退的前一页组成的路径，所以大家可以结合网站的拓扑结构来分割事务，分割好的事务构成事务数据库，是大家进行模式识别的基础，下图大家给出事务识别的流程图

数据挖掘实现部分 1）学生分类：本模块的主要功能就是识别出用户的访问兴趣，本系统采用分类算法将所有用户按照兴趣不同分为不同的小组。在用户注册时大家收集了用户的兴趣，并进行了处理保存在数据库中，这样就可以把用户进行分类。近年来，数据挖掘分类算法主要有：决策树，关联规则，贝叶斯，神经网络，k－临近算法等，本系统采用关联规则算法，主要是采用典型的Apriori算法实现关联规则的挖掘，但由于学习者个别学习时具有很强的盲目性，学习者自己也不一定能准确的掌握自己的学习爱好，针对这部分学生，大家在使用分类时，增加了下述处理步骤：如果学习者选择的爱好与其的实际爱好存在偏差那么将影响到学习者在本统上的学习。因此大家需从学习者大量的学习记录中分析出用户可能存在的学习兴趣，并与学习者选择的兴趣相对比，如果相同则不进行任何操作。如果发现不同则需要给学习者加上系统分析的学习兴趣，以便用户在本系统上更好的进行学习。
另外为了能够更好的将相同类型的网页内容呈现给用户，本系统对于网页进行聚类分析。
2）网页聚类聚类算法时通过对变量的比较，把具有相似特征的数据归于一类。因此，通过聚类以后，数据集就转化为类集，在类集中同一类数据具有较高的相似性，不同类之间的数据具有不相似性。现存的文本聚类算法可以归为两类：分层式聚类和概念聚类。下面大家讲述一种哈夫曼树式的分层聚类法：大家假设有n篇文档D={d1,d2,…,dn}，首先把每篇文档都看成是单独的一类，所以有{c1,c2,…,cn}n类,每个类之间的相似度构成一个矩阵：
其中，是ci,cj之间的相似度，在此矩阵中选取最大值，所对应的文档类分别为cu,cv,将相似性最大的两类合并为一个新的类ck。重复以上过程，直到只剩下一个类为止，最后构成一颗二叉树，如图2所示：

由于聚类的过程是构造一个二叉树，所以效率不是很高。K-means、K-median算法则在一定程度上提高了效率，适合于处理Web这种具有大量数据的对象，详细内容请参见文献[2]。
3、个性化实现
个性化实现部分是本系统的显示部分，在数据挖掘的基础上，大家的系统中对于每个学生的学习兴趣和学习进度都有记录，根据每个学生的学习兴趣和学习进度，将学生正在学习的内容和可能感兴趣的内容以最简单、最有效的方式展现在学生面前，避免了学生学习时为了找到自己所学的内容和进度必须一层一层的点击超连接寻找的麻烦。
4、预测模型
学生访问了网页a.html之后，必然会访问网页b.html，证明a.html和b.html之间有很强的关联性，属于同类的课程，大家可以根据学生的访问序列将网页分为一个个兴趣点，针对很多学生学习时的盲目性，大家可以将相似内容的课程推荐给学生。在很多情况下，学生学习完了一门课程之后，不知道自己应该接着学习什么内容，不了解当前最新的技术。不了解该领域的前沿课题。大家应该可以根据学生的访问序列和学生在进行注册时提供的信息，给出一个预测模型，将学生有可能感兴趣的最新的常识推荐给学生。
三、展望
随着网络技术的发展，网络教育已经成为社会中必不可少的一种教学模式，但是由于网络本身(盲目、安全等)的局限,网络化的教育并没有得到很好的发展,利用数据挖掘技术为学生提供个性化的教学模式，使学生在学习时处于主动地位，可以充分发挥出网络教学的优势。

举报本楼

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2024-11-16 19:52 , Processed in 0.132546 second(s), 15 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册