原创 应用无监督学习Word2vec神经网络的输出层

2019-11-7 15:54 602 4 2 分类: 机器人/ AI 文集: 人工智能

当前随着科学技术的迅猛发展,跟上新科学文献发表的步伐越来越难。个别研究人员可能需要数月才能对一个主题进行广泛的文献综述。如果一台机器可以在几分钟内阅读有关特定主题的所有论文,并告诉科学家前进的最佳方法,那该多好!

应用无监督学习发现隐藏的科学知识

嗯,这个美好的设想距离我们还很远,但我们下面描述的研究提出了一种新方法,可以在最少的人为监督下利用科学文献进行材料发现。

为了使计算机算法能够使用自然语言,需要以某种数学形式表示单词。

在2013年,Word2vec算法以一个有趣的方式从大段文字的自动学习这样的表示。在文本中出现在类似上下文中的单词通常具有相似的含义。因此,如果训练神经网络来预测目标词的相邻词,则它将学习类似目标词的类似表示。他们表明单个单词可以有效地表示为高维向量(嵌入),并且单词之间的语义关系可以表示为线性向量操作(可以参看AI火箭营《深度学习入门系列》里的《透彻理解Word2Vec词向量嵌入原理》视频讲解)。这种语义关系的一个著名例子是表达

"国王" - "女王"≈"男人" - "女人"(1),

其中在相应词的矢量之间执行减法。(1)两侧的词对之间的这种语义关系代表了性别的概念。

应用无监督学习发现隐藏的科学知识

图1:通过相应嵌入之间的线性操作捕获词对之间的类比

当然,如果不是常见的文本来源,如或我们使用的是纯科学文本,在我们的案例中,是数百万种材料科学摘要,这些向量操作嵌入了更多的专业知识。例如,

"ZrO2" - "Zr"≈"NiO" - "Ni",

上述表达式代表氧化物的概念。

语义关系的另一个例子是单词相似性,由嵌入的点积(投影)确定。在原始的Word2vec模型中,单词"large"和"big"具有彼此接近的向量(具有大的点积)但远离"Armenia"的向量。在我们的专业模型中,与"LiCoO2"最相似的词是"LiMn2O4" - 这两种都是锂离子电池正极材料。实际上,如果我们使用t-SNE,在2D平面上投射大约12,000种最受欢迎​​的材料(文本中超过10种),我们发现材料主要根据它们的应用和成分相似性进行聚类。

应用无监督学习发现隐藏的科学知识

图2:类似应用以及具有相似化学成分的材料聚在一起

每个"应用集群"中最常见的元素与我们的材料科学知识相匹配。底部的每个图表是通过计算来自相应应用簇的材料组成中的化学元素而获得的。

现在,我们可以根据特定应用为图2左上角的"材质贴图"做一些更有趣的事情并着色。对应于单个材料的每个点可以根据其嵌入与应用词的嵌入的相似性而着色,例如"热电"(用于描述热到电转换的词,反之亦然)。

应用无监督学习发现隐藏的科学知识

图3:材料根据与应用关键字的相似性"点亮"

正如你们许多人可能已经猜到的那样,上图中最亮的点是科学文摘中明确提到的热电材料,与"热电"一词有关。然而,其他一些亮点从未被研究过作为热电材料,因此该算法表明了一种未在文中明确写出的关系。问题是,这些材料能否成为尚未发现的良好热电材料?令人惊讶的是,答案是肯定的!

我们测试这个假设的几种方法之一是训练单词嵌入,好像我们还在过去一样。我们删除了2000年到2018年间发表的科学摘要,并训练了18种不同的模型。我们使用这些模型中的每一个根据它们的相似性†对"热电"(图3中的颜色强度)这个词进行排序,并且取得了当年未被研究为热电的前50个。事实证明,许多这些材料随后在未来几年被报告为热电材料,如下图所示。

应用无监督学习发现隐藏的科学知识

图4:如果我们对过去的年份仅使用当时可用的数据进行预测,那么其中许多都将成为现实。每条灰线对应于给定年份的预测,并且在所有预测年份中对实线红线和蓝线进行平均。

实际上,2009年的前五大预测之一就是CuGaTe2,它被认为是2012年才发现的最好的热电材料之一。

那么,这一切都有用吗?我们可以通过查看预测材料的上下文单词来获得一些线索,并查看哪些上下文单词与材料和应用关键字"热电"具有高度相似性。我们的前5个预测中有3个最重要的上下文单词如下所示。

应用无监督学习发现隐藏的科学知识

图5:对预测贡献最大的前5个预测中的3个的上下文单词

连接线的宽度与字之间的余弦相似性成比例。

有效地,该算法捕获对于材料是热电的重要的上下文单词(或者更确切地说,上下文单词的组合)。作为材料科学家,我们知道,例如硫属化物(一类材料)通常是良好的热电材料,并且带隙的存在在大多数时间是至关重要的。我们看到算法是如何使用单词的共现来学习的。上图仅捕获一阶连接,但更高阶的连接也可能有助于预测。

对于科学应用,自然语言处理(NLP)几乎总是用作从文献中提取已知事实的工具,而不是用于预测。这与股票价值预测等其他领域不同,例如,分析有关公司的新闻文章,以预测其股票价值在未来如何变化。

但即便如此,大多数方法都将从文本中提取的特征,提供给使用结构化数据库中的其他更大的模型。我们希望这里描述的思想能够鼓励用于科学发现的直接的、无监督的NLP驱动的推理方法。Word2vec不是最先进的NLP算法,因此自然的下一步可能是用更新颖的上下文感知嵌入替换,如BERT和ELMo。我们也希望,由于这里描述的方法需要最少的人力监督,其他科学学科的研究人员将能够利用它们来加速机器辅助的科学发现。

总结

获得良好预测的关键步骤是使用输出嵌入(Word2vec神经网络的输出层)用于应用关键字的材料和词嵌入(Word2vec神经网络的隐藏层)。这有效地转化为预测摘要中单词共现。因此,该算法正在确定研究文献中潜在的"空白",例如研究人员未来应该在功能应用中研究的化学成分。

广告

文章评论 1条评论)

登录后参与讨论

curton 2019-11-7 20:35

学习了
相关推荐阅读
红旗不倒 2020-05-15 16:29
2020消费电子爆款产品TWS耳机背后的百年进化史
据麦姆斯咨询报道,在消费电子行业里,2019年至2020年最火爆的话题莫过于TWS(True Wireless Stereo,真无线立体声)耳机。2019年10月28日,苹果在深夜“悄然”上架全新TW...
红旗不倒 2020-05-14 16:37
5G会改变我们,网络切片技术将是全新的IT必备术语
澳洲推出了全球首个 5G 公众测试计划。这听起来有点讽刺,因为澳洲的英文暱称叫做「Down Under」(意指下方的陆地),而速度达 Gigabit 级的无线宽频技术却无需挖开地面铺设新线缆。 事实...
红旗不倒 2020-05-14 16:10
5G基地台需要高频高速电路,PCB成为5G 时代的当红产品线
自 2019 年开始全球加速佈建 5G 基地台,开始 5G 世代的元年。而新世代通讯基地台需求急升,带旺相关零组件产业链,PCB 产业链便是当红炸子鸡之一。 5G 基地台建设带动 PCB 需求 研...
红旗不倒 2020-05-14 15:06
5G NR网优面试大全(很实用试题)
5G NR网优面试大全这次新增一部分实用面试题。 ▋1、三大运营商5G频段划分 中国电信获得3400MHz-3500MHz共100MHz带宽的5G试验频率资...
红旗不倒 2020-04-30 11:01
阿里巴巴:阿里云、人工智能、钉钉三大科技怎样对抗疫情
在此波新型冠状病毒疫情影响之下,阿里巴巴旗下三大科技协助抗疫,其中包含旗下阿里云、人工智能,以及线上平台钉钉,以阿里云服务平台为基础推动各类云端运算与人工智能应用,并且透过钉钉完成各类线上互动,甚至协...
红旗不倒 2020-04-09 11:37
华为国行版P40售价发布后,推信用卡服务HUAWEI Card
日前全球市场宣布推出年度旗舰手机P40系列后(起售价4188元 最高8888元),华为稍早也正式宣佈P40系列在中国境内销售资讯从,同时更进一步在中国境内市场推出名为HUAWEI Card的自有信...
广告
我要评论
1
4
广告
关闭 热点推荐上一条 /4 下一条