文献整理笔记LDA主题模型

随着互联网技术的发展,文本挖掘技术成为国内外研究人员的重要研究方向,LDA主题模型在文本分析领域有了广泛的应用。本期主要是针对LDA主题模型的文献整理笔记。[1]蔡永明,刘璐,王科唯.网络虚拟学习社区重要用户与核心主题联合分析[J].数据分析与知识发现,,4(06):69-79.研究背景:在开放共享理念的影响下,基于网络的共同学习和共同创作的虚拟学习社区逐渐流行起来,已经成为一个集体学习空间,成员之间分享自己的经验和技能,交流问题与解决方案。但在虚拟学习社区提供海量资源的同时,信息过载、结构杂乱现象很严重,用户难以找到需要的资源。文本挖掘、机器学习、社会网络分析等技术是信息获取与分析的有效工具,广泛应用于虚拟学习社区挖掘。数据来源:以经管之家论坛“数据分析与数据挖掘”版块为例,该版块比较活跃,每天都有大量的学习互动。在经管之家论坛页面,利用R语言的rvest包,抓取最近50页发帖页面,提取版块主题和回复文本2万多条。数据处理方法:经过分词,去除重复词汇和停用词,以及网页非文字符号,生成语料库,进而提出一种基于“用户-文档-词汇”三维权重矩阵的超网络嵌入LDA模型。研究结论:与传统社会网络分析的用户活跃程度不同,超网络嵌入LDA模型根据“用户-词汇”频度矩阵、“用户-主题”分布概率,发现论坛重要用户、核心主题以及两者的互动关系,分析用户兴趣偏好特征。。与同类研究相比较的优缺点:虚拟学习社区交流文本是高稀疏特征的短文本,直接使用传统LDA模型分析的效果并不好。在传统LDA模型和作者主题模型的基础上,提出超网络嵌入LDA模型,除了提供用户与主题的交互分析外,通过加入用户维度信息,扩展模型的输入数据为“用户-文档-词汇”三维权重矩阵,并以超网络节点重要性修正提高重点词汇与核心用户的权重系数,加大了超网络结构中连接紧密节点(词汇或用户)在同一主题下的分配概率,所得主题凝聚性更好。但是,超网络分析技术目前并不成熟,本文加权无向超网络,未对虚拟学习社区的发帖回复等有向关系进一步深入研究。阅读参考价值:文献[1]的研究超网络嵌入LDA模型是传统作者主题模型的改进,可以有效分析社区短文本主题,了解社区用户之间的互动主题关系,对参与社区学习者和论坛管理者都有重要意义。[2]国显达,那日萨,高欢,等.基于GaussianLDA的在线评论主题挖掘研究[J].情报学报,,39(06):-.[3]吕韶华,杨亮,林鸿飞.基于LDA模型的餐馆评论排序[J].计算机工程,,37(19):62-64+67.研究背景:面对着日益增长的海量在线评论,消费者在购买商品时需要花费大量时间和精力才能完成所有评论的阅读。消费者阅读部分评论而做出的决策往往具有片面性,甚至会被一些排在前面的具有误导性的评论所影响而做出不正确的选择。如何有效筛选出被消费者认为是有价值的目标信息,是当前在线评论处理领域研究的热点。数据来源:文献[2]利用数据爬取工具获取天猫、京东和豆瓣产品信息,包括不同类型产品的在线评论。文献[3]的语料是口碑网上年7月1日前,大连地区和沈阳地区餐馆的评论语料。数据处理方法:文献[2]在线评论中有一些超短评论,不包含任何主题信息,属于噪声数据。设定阈值为10,将评论文本长度小于10的在线评论删除。再进行分词和去停用词处理。通过word2vec训练得到在线评论的词向量,并基于GaussianLDA模型获取在线评论的主题分布。文献[3]将大连地区评论总数在前十名的餐馆作为训练集。将沈阳地区评论总数至少条且口碑排序从高到低前十名的餐馆评论作为测试集。并对训练语料和测试语料进行去除重复评论、分词和去停用词处理。研究结论:文献[2]该方法对于簇的数目有很好的控制,影响簇的数目的因子有偏好参数preference和主题个数k,因而只要调节好preference和k便能得到合理的簇;并且只要固定好preference和k,该方法对不同产品类型的评论都能得到比较稳定的效果。文献[3]利用LDA模型对评论文本进行主题抽取,过滤掉不相关评论,基于过滤后的用户评论和用户给出的评论等级计算餐馆评论若干方面的得分,在该得分的基础上,利用逻辑回归进行训练,得到餐馆评论排序模型。实验结果表明,该方法的排序效果较优。与同类研究相比较的优缺点:文献[2]的优点在于该方法有效地解决了传统LDA模型在语义一致性问题上的欠缺,能够找到更加连贯以及更有意义的主题;但是还存在一些需待深入研究的地方。用到的研究方法为无监督学习,当数据含有标签或者部分有标签时,如何利用标签信息改进模型是一个可行的研究方向。文献[3]的优点在于提出了有效计算餐馆评论的主题抽取和倾向性;但是缺点在于数据量较小,下一步可在大规模的语料上对LDA模型的参数进行训练,以达到更好的实验效果。阅读参考价值:文献[2][3]对在线评论的主题挖掘提供了新的有效的思路方法,在以后进行相关分析时可以借鉴学习。[4]孟秋晴,熊回香,童兆莉,等.基于在线问诊文本信息的医生标签自动生成研究[J].情报科学,,38(05):58-64+72.研究背景:随着医疗大数据时代的来临,各种医疗问诊平台相继上线,为用户提供了足不出户就能向医生咨询与沟通的线上平台,大多数平台提供医生的基本信息、发布话题以及问诊记录等信息,如何让用户在海量的网络信息中准确地的找到其所感兴趣的医生是目前学界和业界比较

转载请注明:http://www.shijichaoguyj.com/wxjs/6789.html

  • 上一篇文章:
  • 下一篇文章: 没有了
  • 网站简介| 发布优势| 服务条款| 隐私保护| 广告合作| 网站地图| 版权申明

    当前时间: