● 内容详情
科技领域发展趋势的检测的主要任务是通过主题检测与追踪技术挖掘与某已知主题相关的科技文献,研究一种高效快捷的科技文献的组织方式。通过主题检测与追踪技术,可以实现同一主题内相关文献的自动汇总,展示文献主题的动态发展过程。本论文对主题检测任务进行了深入的研究。本文基于传统的空间向量模型并结合科技文献的结构特征,提出了一种二维向量文档模型,该模型由两个分向量构成(标题特征词向量、内容特征词向量)的二维向量文档模型。本文研究并设计一种适用于科技文献的主题模型,并制定其进化策略。论文通过实验分析,结合提出的文档模型,最终建立了基于二维向量文档模型与类别中心点的主题模型。本文指定的主题模型进化策略借鉴了文本扩充的思想,具体过程是通过设定扩充阈值,不断把追踪过程中高度相关文档补充到主题模型文档集合中,更新主题模型向量。实验证明该模型能适应于科技文献,能够增加模型的准确性。本文基于Rocchio算法实现了一种自调整的Rocchio检测器框架。该框架根据Rocchio相关反馈算法的思想,在检测过程中对主题模型的中心向量与文献相关性检测时的检测阈值进行了自我调整,解决了主题偏移的问题。实验分析表明,自适应的Rocchio检测器与传统的Rocchio检测器在系统的漏报率与误报率方面进行比较,都有明显的降低。本文设计了一种基于带权集合的检测结果隐式反馈算法,该算法的基本思想是:首先,检测结果以列表的形式展示给用户,记录用户点击的结果项,利用集合的交集运算,计算出用户的浏览意图,将该意图反馈给检测器,检测器重新计算结果的排序,以更好的排序方式展示给用户。该反馈模块以查询扩展的形式应用在检测器上。实验分析表明,该反馈算法提高了的检测结果排序的准确率。本文在研究上述技术的基础上,设计并实现面向科技文献的主题检测系统,该系统实现主题的自动检测,管理员只需要设定种子文档与训练文档的存储路径,就可自动展现该主题的相关文档与不相关文档列表,实现了主题文档的自动组织,而且还可以按照时间或相关度对文献进行排序。