原创 应用无监督学习Word2vec神经网络的输出层

2019-11-7 15:54 465 3 2 分类: 机器人/ AI 文集: 人工智能

当前随着科学技术的迅猛发展,跟上新科学文献发表的步伐越来越难。个别研究人员可能需要数月才能对一个主题进行广泛的文献综述。如果一台机器可以在几分钟内阅读有关特定主题的所有论文,并告诉科学家前进的最佳方法,那该多好!

应用无监督学习发现隐藏的科学知识

嗯,这个美好的设想距离我们还很远,但我们下面描述的研究提出了一种新方法,可以在最少的人为监督下利用科学文献进行材料发现。

为了使计算机算法能够使用自然语言,需要以某种数学形式表示单词。

在2013年,Word2vec算法以一个有趣的方式从大段文字的自动学习这样的表示。在文本中出现在类似上下文中的单词通常具有相似的含义。因此,如果训练神经网络来预测目标词的相邻词,则它将学习类似目标词的类似表示。他们表明单个单词可以有效地表示为高维向量(嵌入),并且单词之间的语义关系可以表示为线性向量操作(可以参看AI火箭营《深度学习入门系列》里的《透彻理解Word2Vec词向量嵌入原理》视频讲解)。这种语义关系的一个著名例子是表达

"国王" - "女王"≈"男人" - "女人"(1),

其中在相应词的矢量之间执行减法。(1)两侧的词对之间的这种语义关系代表了性别的概念。

应用无监督学习发现隐藏的科学知识

图1:通过相应嵌入之间的线性操作捕获词对之间的类比

当然,如果不是常见的文本来源,如或我们使用的是纯科学文本,在我们的案例中,是数百万种材料科学摘要,这些向量操作嵌入了更多的专业知识。例如,

"ZrO2" - "Zr"≈"NiO" - "Ni",

上述表达式代表氧化物的概念。

语义关系的另一个例子是单词相似性,由嵌入的点积(投影)确定。在原始的Word2vec模型中,单词"large"和"big"具有彼此接近的向量(具有大的点积)但远离"Armenia"的向量。在我们的专业模型中,与"LiCoO2"最相似的词是"LiMn2O4" - 这两种都是锂离子电池正极材料。实际上,如果我们使用t-SNE,在2D平面上投射大约12,000种最受欢迎​​的材料(文本中超过10种),我们发现材料主要根据它们的应用和成分相似性进行聚类。

应用无监督学习发现隐藏的科学知识

图2:类似应用以及具有相似化学成分的材料聚在一起

每个"应用集群"中最常见的元素与我们的材料科学知识相匹配。底部的每个图表是通过计算来自相应应用簇的材料组成中的化学元素而获得的。

现在,我们可以根据特定应用为图2左上角的"材质贴图"做一些更有趣的事情并着色。对应于单个材料的每个点可以根据其嵌入与应用词的嵌入的相似性而着色,例如"热电"(用于描述热到电转换的词,反之亦然)。

应用无监督学习发现隐藏的科学知识

图3:材料根据与应用关键字的相似性"点亮"

正如你们许多人可能已经猜到的那样,上图中最亮的点是科学文摘中明确提到的热电材料,与"热电"一词有关。然而,其他一些亮点从未被研究过作为热电材料,因此该算法表明了一种未在文中明确写出的关系。问题是,这些材料能否成为尚未发现的良好热电材料?令人惊讶的是,答案是肯定的!

我们测试这个假设的几种方法之一是训练单词嵌入,好像我们还在过去一样。我们删除了2000年到2018年间发表的科学摘要,并训练了18种不同的模型。我们使用这些模型中的每一个根据它们的相似性†对"热电"(图3中的颜色强度)这个词进行排序,并且取得了当年未被研究为热电的前50个。事实证明,许多这些材料随后在未来几年被报告为热电材料,如下图所示。

应用无监督学习发现隐藏的科学知识

图4:如果我们对过去的年份仅使用当时可用的数据进行预测,那么其中许多都将成为现实。每条灰线对应于给定年份的预测,并且在所有预测年份中对实线红线和蓝线进行平均。

实际上,2009年的前五大预测之一就是CuGaTe2,它被认为是2012年才发现的最好的热电材料之一。

那么,这一切都有用吗?我们可以通过查看预测材料的上下文单词来获得一些线索,并查看哪些上下文单词与材料和应用关键字"热电"具有高度相似性。我们的前5个预测中有3个最重要的上下文单词如下所示。

应用无监督学习发现隐藏的科学知识

图5:对预测贡献最大的前5个预测中的3个的上下文单词

连接线的宽度与字之间的余弦相似性成比例。

有效地,该算法捕获对于材料是热电的重要的上下文单词(或者更确切地说,上下文单词的组合)。作为材料科学家,我们知道,例如硫属化物(一类材料)通常是良好的热电材料,并且带隙的存在在大多数时间是至关重要的。我们看到算法是如何使用单词的共现来学习的。上图仅捕获一阶连接,但更高阶的连接也可能有助于预测。

对于科学应用,自然语言处理(NLP)几乎总是用作从文献中提取已知事实的工具,而不是用于预测。这与股票价值预测等其他领域不同,例如,分析有关公司的新闻文章,以预测其股票价值在未来如何变化。

但即便如此,大多数方法都将从文本中提取的特征,提供给使用结构化数据库中的其他更大的模型。我们希望这里描述的思想能够鼓励用于科学发现的直接的、无监督的NLP驱动的推理方法。Word2vec不是最先进的NLP算法,因此自然的下一步可能是用更新颖的上下文感知嵌入替换,如BERT和ELMo。我们也希望,由于这里描述的方法需要最少的人力监督,其他科学学科的研究人员将能够利用它们来加速机器辅助的科学发现。

总结

获得良好预测的关键步骤是使用输出嵌入(Word2vec神经网络的输出层)用于应用关键字的材料和词嵌入(Word2vec神经网络的隐藏层)。这有效地转化为预测摘要中单词共现。因此,该算法正在确定研究文献中潜在的"空白",例如研究人员未来应该在功能应用中研究的化学成分。

广告

文章评论 1条评论)

登录后参与讨论

curton 2019-11-7 20:35

学习了
相关推荐阅读
红旗不倒 2020-04-01 17:07
为什么8848 M6系列推5G不受宠,大众钟爱乔布斯的iPhone外观设计构?
手机外观一直是人们非常看重的一点。而最近,一直被手机圈广泛讨论的8848手机也在近日推出了旗下的全新5G手机——8848 M6系列。相信了解过8848手机的人都知道。这家手机厂商一直以高昂的手机价格,...
红旗不倒 2020-04-01 16:45
无刘海iPhone外观怎样,iOS 14源代码中泄露信息
随着2020年第一季度即将结束,关于iPhone 12的消息也愈发多了起来。不过对于这些消息,大家也都是根据相关信息给出合理的猜测罢了,并没有从官方哪里挖掘出什么可靠的东西出来。但是就在近日,关于iP...
红旗不倒 2020-04-01 16:43
苹果笔记本电脑被曝视网膜显示屏问题,质量堪忧引发热议
相信许多工作人士都十分钟意苹果的笔记本电脑——MacBook Air,这款笔记本电脑确实成为了诸多用户强大的生产力工具。轻巧纤薄、秒控键盘、触控ID、MacOS系统等特点,也让这款产品受到了非常多用户...
红旗不倒 2020-03-26 15:49
国产手机8848又出5G新手机,它的定价应该会是多少呢
8848,这一国产手机品牌这是十分魔幻,奢华的外观确实吸引到了不少人的注意力。不过许多人在仔细了解之后会发现,这一手机品牌的手机真的可以说是金玉其外败絮其中。虽然好看,但是高昂的价格与它手机内部的硬件...
红旗不倒 2020-03-25 16:23
一颗小电容听老师傅摆却让主板死机,PCIE AC耦合电容的坑
大楠爱看各种电影 17小时前电容等效模型是LRC串联,一定容值电容的等效阻抗随频率变化的曲线是一个开口向上的V,不是频率越高等效阻抗越小,且容值越大V的最低点就是等效阻抗最小点对应的频率越低...
红旗不倒 2020-03-25 16:19
硬件测试工程师就一打杂的,看看专业测试啥个样
写了多篇设计和仿真方面的文章,例如HDMI一期专题(设计、测试、认证)和三四篇实际问题问题文章,POE电路两篇相应文章,电源设计和保护电路几篇文章,同时电路仿真和电磁仿真也洋洋洒洒的写了几篇。唯一遗憾...
广告
我要评论
1
3
广告
关闭 热点推荐上一条 /2 下一条