当前随着科学技术的迅猛发展,跟上新科学文献发表的步伐越来越难。个别研究人员可能需要数月才能对一个主题进行广泛的文献综述。如果一台机器可以在几分钟内阅读有关特定主题的所有论文,并告诉科学家前进的最佳方法,那该多好!
嗯,这个美好的设想距离我们还很远,但我们下面描述的研究提出了一种新方法,可以在最少的人为监督下利用科学文献进行材料发现。
为了使计算机算法能够使用自然语言,需要以某种数学形式表示单词。
在2013年,Word2vec算法以一个有趣的方式从大段文字的自动学习这样的表示。在文本中出现在类似上下文中的单词通常具有相似的含义。因此,如果训练神经网络来预测目标词的相邻词,则它将学习类似目标词的类似表示。他们表明单个单词可以有效地表示为高维向量(嵌入),并且单词之间的语义关系可以表示为线性向量操作(可以参看AI火箭营《深度学习入门系列》里的《透彻理解Word2Vec词向量嵌入原理》视频讲解)。这种语义关系的一个著名例子是表达
"国王" - "女王"≈"男人" - "女人"(1),
其中在相应词的矢量之间执行减法。(1)两侧的词对之间的这种语义关系代表了性别的概念。
当然,如果不是常见的文本来源,如或我们使用的是纯科学文本,在我们的案例中,是数百万种材料科学摘要,这些向量操作嵌入了更多的专业知识。例如,
"ZrO2" - "Zr"≈"NiO" - "Ni",
上述表达式代表氧化物的概念。
语义关系的另一个例子是单词相似性,由嵌入的点积(投影)确定。在原始的Word2vec模型中,单词"large"和"big"具有彼此接近的向量(具有大的点积)但远离"Armenia"的向量。在我们的专业模型中,与"LiCoO2"最相似的词是"LiMn2O4" - 这两种都是锂离子电池正极材料。实际上,如果我们使用t-SNE,在2D平面上投射大约12,000种最受欢迎的材料(文本中超过10种),我们发现材料主要根据它们的应用和成分相似性进行聚类。
每个"应用集群"中最常见的元素与我们的材料科学知识相匹配。底部的每个图表是通过计算来自相应应用簇的材料组成中的化学元素而获得的。
现在,我们可以根据特定应用为图2左上角的"材质贴图"做一些更有趣的事情并着色。对应于单个材料的每个点可以根据其嵌入与应用词的嵌入的相似性而着色,例如"热电"(用于描述热到电转换的词,反之亦然)。
正如你们许多人可能已经猜到的那样,上图中最亮的点是科学文摘中明确提到的热电材料,与"热电"一词有关。然而,其他一些亮点从未被研究过作为热电材料,因此该算法表明了一种未在文中明确写出的关系。问题是,这些材料能否成为尚未发现的良好热电材料?令人惊讶的是,答案是肯定的!
我们测试这个假设的几种方法之一是训练单词嵌入,好像我们还在过去一样。我们删除了2000年到2018年间发表的科学摘要,并训练了18种不同的模型。我们使用这些模型中的每一个根据它们的相似性†对"热电"(图3中的颜色强度)这个词进行排序,并且取得了当年未被研究为热电的前50个。事实证明,许多这些材料随后在未来几年被报告为热电材料,如下图所示。
图4:如果我们对过去的年份仅使用当时可用的数据进行预测,那么其中许多都将成为现实。每条灰线对应于给定年份的预测,并且在所有预测年份中对实线红线和蓝线进行平均。
实际上,2009年的前五大预测之一就是CuGaTe2,它被认为是2012年才发现的最好的热电材料之一。
那么,这一切都有用吗?我们可以通过查看预测材料的上下文单词来获得一些线索,并查看哪些上下文单词与材料和应用关键字"热电"具有高度相似性。我们的前5个预测中有3个最重要的上下文单词如下所示。
连接线的宽度与字之间的余弦相似性成比例。
有效地,该算法捕获对于材料是热电的重要的上下文单词(或者更确切地说,上下文单词的组合)。作为材料科学家,我们知道,例如硫属化物(一类材料)通常是良好的热电材料,并且带隙的存在在大多数时间是至关重要的。我们看到算法是如何使用单词的共现来学习的。上图仅捕获一阶连接,但更高阶的连接也可能有助于预测。
对于科学应用,自然语言处理(NLP)几乎总是用作从文献中提取已知事实的工具,而不是用于预测。这与股票价值预测等其他领域不同,例如,分析有关公司的新闻文章,以预测其股票价值在未来如何变化。
但即便如此,大多数方法都将从文本中提取的特征,提供给使用结构化数据库中的其他更大的模型。我们希望这里描述的思想能够鼓励用于科学发现的直接的、无监督的NLP驱动的推理方法。Word2vec不是最先进的NLP算法,因此自然的下一步可能是用更新颖的上下文感知嵌入替换,如BERT和ELMo。我们也希望,由于这里描述的方法需要最少的人力监督,其他科学学科的研究人员将能够利用它们来加速机器辅助的科学发现。
获得良好预测的关键步骤是使用输出嵌入(Word2vec神经网络的输出层)用于应用关键字的材料和词嵌入(Word2vec神经网络的隐藏层)。这有效地转化为预测摘要中单词共现。因此,该算法正在确定研究文献中潜在的"空白",例如研究人员未来应该在功能应用中研究的化学成分。
curton 2019-11-7 20:35