《学前教育web文档的特征提取研究》

日期:2008.01.01 点击数:9

【类型】学位论文

【作者】邱明 

【关键词】 特征提取 Web文档 学前教育 自动分类

【全文】随着信息技术和通讯技术的飞速发展,Internet为学前教育提供了极为丰富的网页文档。这些文档大都是半结构化或无结构化的数据,要快速地从中获得所需信息非常困难。为了提高网页文档的利用效率,提高搜索的准确性,需要对海量的网页进行自动分类处理。网页文档的特征提取是自动分类的前提,文章研究网页文档的特征提取所涉及到的主要技术和方法。 文章的主要工作如下: 1.介绍特征提取的背景知识,包括文本自动分类过程,文本特征表示的模型,自动分类的概念以及分类算法。 2.阐释Web文档的预处理的过程和方法。在分析Web文档的基本结构的基础上,提出消除Web文档的噪音、过滤Web文档中的停用词的方法。 3. 提出学前教育Web资源的特点及其分类体系。 4.分析Web文档特征项选择的评估函数和权重计算函数,提出基于HTML标记优化特征权重计算的方案。 5. 在实验结果的基础上,认为在学前教育分类体系下,TF*IDF优于其他权重计算方法,基于HTML的特征加权算法可以优化分类器的分类效果。

【学位名称】硕士

【学位授予单位】南京师范大学

【学位年度】2008

【导师姓名】李艺

【分类号】TP2

【出版日期】39448

【全文挂接】获取全文

3 0
Rss订阅