原创 应用无监督学习Word2vec神经网络的输出层

2019-11-7 15:54 4119 17 2 分类: 机器人/ AI 文集: 人工智能

当前随着科学技术的迅猛发展,跟上新科学文献发表的步伐越来越难。个别研究人员可能需要数月才能对一个主题进行广泛的文献综述。如果一台机器可以在几分钟内阅读有关特定主题的所有论文,并告诉科学家前进的最佳方法,那该多好!

应用无监督学习发现隐藏的科学知识

嗯,这个美好的设想距离我们还很远,但我们下面描述的研究提出了一种新方法,可以在最少的人为监督下利用科学文献进行材料发现。

为了使计算机算法能够使用自然语言,需要以某种数学形式表示单词。

在2013年,Word2vec算法以一个有趣的方式从大段文字的自动学习这样的表示。在文本中出现在类似上下文中的单词通常具有相似的含义。因此,如果训练神经网络来预测目标词的相邻词,则它将学习类似目标词的类似表示。他们表明单个单词可以有效地表示为高维向量(嵌入),并且单词之间的语义关系可以表示为线性向量操作(可以参看AI火箭营《深度学习入门系列》里的《透彻理解Word2Vec词向量嵌入原理》视频讲解)。这种语义关系的一个著名例子是表达

"国王" - "女王"≈"男人" - "女人"(1),

其中在相应词的矢量之间执行减法。(1)两侧的词对之间的这种语义关系代表了性别的概念。

应用无监督学习发现隐藏的科学知识

图1:通过相应嵌入之间的线性操作捕获词对之间的类比

当然,如果不是常见的文本来源,如或我们使用的是纯科学文本,在我们的案例中,是数百万种材料科学摘要,这些向量操作嵌入了更多的专业知识。例如,

"ZrO2" - "Zr"≈"NiO" - "Ni",

上述表达式代表氧化物的概念。

语义关系的另一个例子是单词相似性,由嵌入的点积(投影)确定。在原始的Word2vec模型中,单词"large"和"big"具有彼此接近的向量(具有大的点积)但远离"Armenia"的向量。在我们的专业模型中,与"LiCoO2"最相似的词是"LiMn2O4" - 这两种都是锂离子电池正极材料。实际上,如果我们使用t-SNE,在2D平面上投射大约12,000种最受欢迎​​的材料(文本中超过10种),我们发现材料主要根据它们的应用和成分相似性进行聚类。

应用无监督学习发现隐藏的科学知识

图2:类似应用以及具有相似化学成分的材料聚在一起

每个"应用集群"中最常见的元素与我们的材料科学知识相匹配。底部的每个图表是通过计算来自相应应用簇的材料组成中的化学元素而获得的。

现在,我们可以根据特定应用为图2左上角的"材质贴图"做一些更有趣的事情并着色。对应于单个材料的每个点可以根据其嵌入与应用词的嵌入的相似性而着色,例如"热电"(用于描述热到电转换的词,反之亦然)。

应用无监督学习发现隐藏的科学知识

图3:材料根据与应用关键字的相似性"点亮"

正如你们许多人可能已经猜到的那样,上图中最亮的点是科学文摘中明确提到的热电材料,与"热电"一词有关。然而,其他一些亮点从未被研究过作为热电材料,因此该算法表明了一种未在文中明确写出的关系。问题是,这些材料能否成为尚未发现的良好热电材料?令人惊讶的是,答案是肯定的!

我们测试这个假设的几种方法之一是训练单词嵌入,好像我们还在过去一样。我们删除了2000年到2018年间发表的科学摘要,并训练了18种不同的模型。我们使用这些模型中的每一个根据它们的相似性†对"热电"(图3中的颜色强度)这个词进行排序,并且取得了当年未被研究为热电的前50个。事实证明,许多这些材料随后在未来几年被报告为热电材料,如下图所示。

应用无监督学习发现隐藏的科学知识

图4:如果我们对过去的年份仅使用当时可用的数据进行预测,那么其中许多都将成为现实。每条灰线对应于给定年份的预测,并且在所有预测年份中对实线红线和蓝线进行平均。

实际上,2009年的前五大预测之一就是CuGaTe2,它被认为是2012年才发现的最好的热电材料之一。

那么,这一切都有用吗?我们可以通过查看预测材料的上下文单词来获得一些线索,并查看哪些上下文单词与材料和应用关键字"热电"具有高度相似性。我们的前5个预测中有3个最重要的上下文单词如下所示。

应用无监督学习发现隐藏的科学知识

图5:对预测贡献最大的前5个预测中的3个的上下文单词

连接线的宽度与字之间的余弦相似性成比例。

有效地,该算法捕获对于材料是热电的重要的上下文单词(或者更确切地说,上下文单词的组合)。作为材料科学家,我们知道,例如硫属化物(一类材料)通常是良好的热电材料,并且带隙的存在在大多数时间是至关重要的。我们看到算法是如何使用单词的共现来学习的。上图仅捕获一阶连接,但更高阶的连接也可能有助于预测。

对于科学应用,自然语言处理(NLP)几乎总是用作从文献中提取已知事实的工具,而不是用于预测。这与股票价值预测等其他领域不同,例如,分析有关公司的新闻文章,以预测其股票价值在未来如何变化。

但即便如此,大多数方法都将从文本中提取的特征,提供给使用结构化数据库中的其他更大的模型。我们希望这里描述的思想能够鼓励用于科学发现的直接的、无监督的NLP驱动的推理方法。Word2vec不是最先进的NLP算法,因此自然的下一步可能是用更新颖的上下文感知嵌入替换,如BERT和ELMo。我们也希望,由于这里描述的方法需要最少的人力监督,其他科学学科的研究人员将能够利用它们来加速机器辅助的科学发现。

总结

获得良好预测的关键步骤是使用输出嵌入(Word2vec神经网络的输出层)用于应用关键字的材料和词嵌入(Word2vec神经网络的隐藏层)。这有效地转化为预测摘要中单词共现。因此,该算法正在确定研究文献中潜在的"空白",例如研究人员未来应该在功能应用中研究的化学成分。

文章评论1条评论)

登录后参与讨论

curton 2019-11-7 20:35

学习了
相关推荐阅读
红旗不倒 2023-04-24 16:28
多谐振荡电路原理、计算公式,施密特,单稳态电路,多谐振荡电路优缺点
多谐振荡电路原理、多谐振荡电路计算公式、施密特,单稳态电路,多谐振荡电路优缺点多谐振荡电路是一种具有放大作用的电路,它利用电容的充放电特性来产生振荡信号。多谐振荡器的基本原理是,当外加在电感两端的交流...
红旗不倒 2023-03-29 17:23
可控硅材料介绍、作用、与igbt优缺点对比
本文分享可控硅材料介绍、作用、可控硅和igbt优缺点对比可控硅是什么材料,有哪些作用可控硅,又称为晶闸管(SCR),是一种电子器件,常用于控制交流电的电压和功率。可控硅由四层半导体材料组成,其中P型半...
红旗不倒 2023-03-24 10:49
强大的chatgpt NLP技术,可能无法单独吞噬世界?
人工智能编码 尽管软件被认为是“吞噬世界”,但由于开发人才的获取和构建软件所需任务数量的增加,它在这样做方面受到了严重限制。需要软件开发人员的工作数量正在以远远超过进入市场填补这些职位的熟练专业人员...
红旗不倒 2023-03-20 10:47
ChatGpt汇总:全球各国在6G发展状况?5G、4G、3G、2G和1G的网速和覆盖能力对比
6g 普及了吗,对比5、4、3、2、1G网速、关键核心技术、覆盖能力、成本等汇总对比,全球各国在6G领域的发展状况?网速方面:2G:数字式移动电话技术,可提供更快的数据传输速度和更好的语音质量。4G:...
红旗不倒 2023-03-15 16:49
电机功率计算公式(三相平衡功率、异步电机功率)详细解读,看得明明白白
电机功率的计算公式需要考虑到电机的实际情况、电力质量等因素,因此具体的计算需要根据实际情况进行调整。以下是三相平衡功率和异步电机功率的计算公式:三相平衡功率计算公式:三相电源输入功率 P = √3 ×...
红旗不倒 2022-08-03 18:10
IC面临库存调整、英飞凌Q3收入增长超预期、台积电将用中微刻蚀机生产5纳米
2022年8月3日,半导体行业快讯汇总:15:05据台媒报道,近来半导体行业被“砍单潮”席卷,OSAT(专业委外封测代工)业内人士称,消费电子应用的成熟基础IC面临库存调整,先前数次调涨封测代工费用的...
我要评论
1
17
关闭 站长推荐上一条 /2 下一条