如何在数以亿计的选择中找到一个好的读物?

  有了数以十亿计的书籍、新闻故事和在线文档,如果你有时间筛选所有选项的话,再也没有比这更好的阅读时间了。麻省理工学院助理教授贾斯汀·所罗门说:“互联网上有大量的文字。“任何有助于切割这些材料的东西都是非常有用的。”
 
  所罗门最近在麻省理工学院的MIT-IBM沃森人工智能实验室和他的几何数据处理小组,在神经信息处理系统(NeurIPS)会议上提出了一种新的切割大量文本的技术。他们的方法结合了三种流行的文本分析工具——主题建模、word嵌入和最优传输——在一个流行的文档分类基准上提供比竞争方法更好、更快的结果。
 
  如果一个算法知道你过去喜欢什么,它可以扫描出数百万个类似的可能性。随着自然语言处理技术的改进,那些“你可能也喜欢”的建议变得越来越快,越来越相关。
 
  在NeurIPS提出的方法中,一种算法根据集合中常用的单词将一组书籍(比如说书籍)归纳成主题。然后,它将每本书分成5到15个最重要的主题,并估计每个主题对整本书的贡献。
 
  为了比较书籍,研究人员使用了另外两种工具:单词嵌入(wordembeddings),一种将单词转换成数字列表以反映其在流行用法中的相似性的技术;以及优化传输(optimizetransport),一种计算在多个目的地之间移动对象(或数据点)的最有效方式的框架。
在数以亿计的选择中找到一个好的书本
 
  单词嵌入使得两次利用最佳传输成为可能:首先将集合中的主题作为一个整体进行比较,然后在任何一对书中测量共同主题重叠的程度。
 
  当扫描大量书籍和冗长的文档时,这种技术尤其有效。在这项研究中,研究人员提供了弗兰克·斯托克顿的《伟大的战争辛迪加》(theGreatWarSyndicate)的例子,这本19世纪的美国小说预言了核武器的崛起。如果你正在寻找一本类似的书,主题模型将有助于确定与其他书共享的主要主题-在本例中,是航海、元素和军事。
 
  但是仅仅是一个主题模型并不能将托马斯·赫胥黎1863年的演讲《有机自然的过去条件》确定为一个很好的匹配。这位作家是查尔斯·达尔文进化论的拥护者,他的演讲中提到了化石和沉积作用,反映了关于地质学的新观点。当赫胥黎演讲中的主题与斯托克顿的小说《通过最佳运输》相匹配时,出现了一些交叉主题:赫胥黎的地理、动植物和知识主题分别与斯托克顿的航海、元素和军事主题密切相关。
 
  根据书籍的代表性主题(而不是单个单词)对书籍进行建模,使高层比较成为可能。“如果你让某人比较两本书,他们会把每本书分成易于理解的概念,然后比较这些概念,”该研究的主要作者、IBM研究员米哈伊尔尤罗奇金(MikhailYurochkin)说。
 
  研究表明,结果比较起来更快、更准确。研究人员在一秒钟内对比了古腾堡项目数据集中的1720对书,比下一个最佳方法快800多倍。
 
  与其他方法相比,这种技术在准确分类文档方面也做得更好——例如,按作者对古腾堡数据集中的书籍进行分组、按部门对亚马逊的产品评论以及按体育节目对BBC体育报道进行分类。在一系列的可视化中,作者们展示了他们的方法可以很好地按类型对文档进行聚类。
 
  除了快速和更准确地对文档进行分类之外,该方法还提供了一个进入模型决策过程的窗口。通过出现的主题列表,用户可以看到模型推荐文档的原因。
 
  这项研究的其他作者分别是麻省理工学院电子工程与计算机科学系、计算机科学与人工智能实验室的研究生和博士后塞巴斯蒂安·克莱西(SebastianClaici)和爱德华·钱(EdwardChien),以及IBM的研究员法扎内·米尔扎德(FarzanehMirzazadeh)。
相关推荐
新闻聚焦
猜你喜欢
热门推荐
返回列表
 
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。