 

广州铁金刚

文章：73 阅读：116536 评论：83 赞：853

沧海一粟，老骥伏枥，一个默默耕耘的工程师。我的孩子称我为“救人的工程师”

 好友  私信个人主页

沧海一粟，老骥伏枥，一个默默耕耘的工程师。我的孩子称我为“救人的工程师”

文章 73
原创 40
阅读 116536
评论 83
赞 853

原创 2024值得关注的七个技术：ChatGPT未入选 |《自然》技术特写

 2024-3-4 09:57  497 6 6 分类: 工程师职场文集: 人工智能

2024值得关注的七个技术：ChatGPT未入选 |《自然》技术特写

Nature Portfolio

今年的核心技术创新大多集中在人工智能领域。

插图：The Project Twins

从蛋白质工程到3D打印再到深度伪造（deepfake），《自然》细数了今年值得关注的七大技术。

面向蛋白质设计的深度学习

20年前，华盛顿大学的David Baker和同事取得了一个重要突破：他们用计算工具从头设计了一种全新的蛋白质。“Top7”能按预期折叠，但它是惰性的：没有实际的生物学功能。如今，从头开始（de novo）的蛋白质设计已经成熟，成了生产定制酶和其他蛋白质的实用工具。“这个技术现在很强大，”与Baker团队合作设计基于蛋白的疫苗和药物递送载体的华盛顿大学生物化学家Neil King说，“一年半前还不可能的事，现在说做就做。”

这些进展大部分来自蛋白质序列与结构关联数据集的不断扩充。当然，深度学习这种复杂的人工智能（AI）技术也功不可没。

“基于序列”的策略利用ChatGPT背后的大语言模型（LLM）（见“ChatGPT？也许明年吧”）。这种策略将蛋白质序列看作由多肽“单词”组成的文档，这些算法能拆解真实蛋白质结构的模式。“它们能学习底层语法。”西班牙巴塞罗那分子生物学研究所的蛋白生物化学家Noelia Ferruz说。2002年，她的团队开发了名为ProtGPT2的算法，能不断输出在实验室合成时稳定折叠的蛋白质[1]。Ferruz参与开发的另一个工具名为ZymCTRL，能利用序列和功能数据设计自然存在的酶家族的成员[2]。

ChatGPT？也许明年吧

读者可能已经发现了今年的一个突出主题：深度学习技术的巨大影响。但有一个工具没有进入今年榜单：热度很高的人工智能（AI）对话机器人。ChatGPT及其同类已然进入了研究人员的日常生活，还入围了《自然》2023年度十大人物。《自然》9月的一份问卷的受访者将ChatGPT列为最实用的AI工具，并看好它在处理编程、文献综述和行政任务上的潜力。

这类工具也有促进公平的意义，能帮助英语非母语者润色文章，让他们的文章发表和晋升道路更顺利。不过，许多这类应用更多是节省劳力而不是改变研究过程。此外，超过2/3的问卷受访者都认为ChatGPT的误导或虚假回复是个需要担心的老问题。虽然值得观察，但这些工具还需要慢慢改进，才能在科研世界发挥更大的作用。

“基于序列”的方法能利用并调整现有蛋白特征构建新框架，但它们在定制化设计结构元素或特征方面的效率不高，比如以可预测的方式与特定靶点结合的能力。“基于结构”的方法在这里更合适，这类蛋白质设计算法在2023年也取得了有目共睹的进展。其中最精巧的一些算法使用“扩散”模型，扩散模型也是DALL-E这类图像生成工具所使用的模型。这些算法最初的训练目标是清除来自大量真实结构的计算机生成噪音，通过学习如何从噪音中区别真实结构元素，它们能形成生物学上可行的，由用户定义的结构。

Baker实验室开发的RFdiffusion软件[3]以及马萨诸塞州Generate Biomedicines开发的工具Chroma便是这种策略的集大成者。Baker团队使用RFdiffusion改造能与靶标形成紧密界面的新型蛋白，得到能与界面完美结合的设计，Baker说道。RFdiffusion的一种新型“全原子”迭代[5]让设计师能用计算机围绕非蛋白靶标（如DNA、小分子，甚至是金属离子）塑造蛋白质。由此获得的各种功能为工程改造酶、转录调控因子、功能性生物材料等打开了新大门。

“深伪”检测

去年，面向公众的生成式AI算法突飞猛进，合成完全人造但逼真的图像和音视频变得易如反掌。合成作品虽然能带来欢乐，但考虑到持续的地缘政治冲突和近在咫尺的美国大选，社交媒体被武器化的机会也多了起来。

纽约州立大学布法罗分校的计算机科学家Siwei Lyu见过无数AI生成的与巴以冲突有关的“深伪”图像和音频。这只是最新一集猫捉老鼠游戏：一边有人用AI生成欺诈内容，一边是Lyu等社媒识伪人员努力去发现和拦截。

一个识别办法是让生成式AI开发者在模型输出内容中加入隐藏信号，比如为AI内容打上水印。其他办法则从内容本身下手。比如一些被篡改的视频会将公众人物的某些面部特征替换成别人的特征，而新算法能在替换特征的边界发现人工痕迹，Lyu说道。个人外耳的特殊褶皱也能揭示脸部和头部的不匹配，牙齿的不规则能揭露改动过的对口型视频，这种经过数字处理的视频能让一个人说一些他们没说过的话。AI生成的照片也是个难题，而且是个不断变化的目标。2019年，意大利那不勒斯腓特烈二世大学的媒体识伪员Luisa Verdoliva协助开发了FaceForensics++，这个工具能发现用多款常用软件改动过的面部特征[6]。但图像识伪技术具有主题和软件特异性，泛化难度高。她说：“你无法做出一个通用检测器——这太难了。”

此外还有执行的问题。美国国防高级研究计划局的“语义取证”（Semantic Forensics）项目开发了一个深伪分析工具，但据《自然》报道，各大社交媒体网站并没有将其列为常用工具。提高这类工具的可及性或能增加使用率，为此，Lyu的团队开发了DeepFake-O-Meter[7]，这个中心化公共算法数据库能从不同角度分析视频内容，发现深伪内容。这类资源很有帮助，但与“AI诈骗”可能是场旷日持久的搏斗。

大片段DNA插入

2023年末，美国和英国的监管机构批准了首个面向镰状细胞病和输血依赖型β地中海贫血症的CRISPR基因编辑疗法——宣告基因组编辑作为临床工具的巨大成功。

CRISPR及其衍生工具利用可编程的短RNA 将切割DNA的酶（如Cas9）引导至特定的基因组位点。这类技术在实验室常被用来使有缺陷的基因失效，引入小的序列改变。以精准且可编程的方式插入更大的DNA序列很难，但新技术能替换缺陷基因的关键片段或是插入全功能性基因序列。斯坦福大学的分子遗传学家Le Cong和同事正在研究单链退火蛋白（SSAP），这种源自病毒的分子能介导DNA充足。当与CRISPR–Cas系统结合时——该系统中Cas9的DNA切割功能已失效——这些SSAP能让多达2千碱基的DNA精准插入人类基因组。

其他技术使用名为“先导编辑”（prime editing）的基于CRISPR方法，引入能选择性招募酶的“landing pad”短序列，反过来再将DNA大片段精准插入基因组。2022年，麻省理工学院的基因组工程师Omar Abudayyeh和Jonathan Gootenberg就和同事首次描述了“基于位点特异性靶向元件的可编程添加”（PASTE），这种技术能精准插入最多36千碱基DNA[8]。PASTE尤其适合用于对患者体内提取的培养细胞进行体外修饰，Cong说，其背后的先导编辑技术已在迈向了临床研究。但对人体细胞的体内修饰来说，SSAP或是一个更紧凑的工具：庞大的PASTE系统需要用三个独立的病毒载体递送，使其编辑效率低于只要两个成分的 SSAP系统。不过，即使是相对低效的基因替换策略也足以缓解许多遗传病的影响。

这类技术不仅能影响人类健康。中国科学院的高彩霞开发的PrimeRoot技术利用先导编辑引入特定靶点，酶可以利用这些靶点向水稻和玉米中最多插入20千碱基的DNA[9]。高彩霞认为这项技术能广泛用于提高作物的抗疾病和抗病原体能力，推动基于CRISPR的植物基因组工程创新。她说：“我相信这种技术能用于任何一种植物。”

脑机接口

Pat Bennett的语速比常人慢，有时还会用词不准。由于患有肌萎缩侧索硬化症这种运动神经元疾病，比起之前话也不能说的她，现在的她已经进步了很多。

Bennett的康复要感谢美国斯坦福大学神经科学家Francis Willett和他在BrainGate合作组的同事开发的先进的脑机接口（BCI）装置[10]。Willett和同事在Bennett的脑内植入了追踪神经元活动的电极，然后训练深度学习算法将这些信号翻译成语音。经过几周的训练，Bennett每分钟能说62个英文单词，词汇量为12.5万——是讲英语的普通人的两倍词汇量。“这也太厉害了，他们交流的速度。”匹兹堡大学开发BCI技术的生物工程师Jennifer Collinger说道。

脑机接口技术让Pat Bennett（就坐者）恢复了说话能力。来源：Steve Fisch/Stanford Medicine

过去几年里，有好几个像BrainGate试验这种验证BCI技术如何帮助重度神经损伤患者重获技能和独立性的研究。这当中的部分进展来自对各种神经疾病患者脑内功能性神经解剖学知识的缓慢积累，BrainGate合作组主任、美国布朗大学神经学家Leigh Hochberg说，但机器学习驱动的分析技术极大推动了这些知识的应用，这些技术告诉我们如何才能更好地插入电极并解码采集到的信号。

研究人员还在用AI语言模型加速对患者试图交流内容的解读——本质上就是对大脑的“自动填空”。这是Willett研究的核心内容，也是加州大学旧金山分校的神经外科医生Edward Chang的团队的研究目标[11]。在后一项工作中，一种脑机接口神经装置能让一名中风后失语的女性以每分钟78个英文单词的速度交流——几乎是平均英文语速的一半，是该女性在语音辅助装置下的5倍速以上。该领域在其他方面也有进展。2021年，Collinger和匹兹堡大学的生物医学工程师Robert Gaunt在一名四肢全瘫人士的运动和躯体感觉皮质内植入电极，以实现对机械臂的快速精准操控以及触觉感知反馈[12]。BrainGate和荷兰乌得勒支大学医学中心也分别在开展这方面的临床研究，测试一种能让瘫痪人士操控计算机的系统——这是脑机接口装置的首个由工业界赞助的试验。

身为重症监护专家，Hochberg迫切想要在残疾最重的患者身上使用这些技术。随着脑机接口技术的不断进步，他发现该技术也很适合治疗中度认知损伤和心理健康问题，如情绪障碍等。他说：“使用脑机接口的闭环神经调控系统或能帮助很多很多人。”

超强分辨率

Stefan Hell、Eric Betzig和William Moerner被授予2014年诺贝尔化学奖，奖励他们打破了限制光谱空间分辨率的“衍射极限”（diffraction limit），使分辨率达到几十纳米尺度，让各类分子尺度的成像实验成为可能。不过，一些研究人员还想更进一步，并且进步神速。“我们想缩小从超分辨显微镜到冷冻电镜这类结构生物学技术的差距。”德国马克斯·普朗克生物化学研究所的纳米技术研究员Ralf Jungmann说道，他指的是一种能以原子尺度分辨率重建蛋白质结构的技术。

Hell和他在马克斯·普朗克多学科科学研究所的团队在2022年末初涉该领域，他们的技术名为MINSTED，能用一种特殊的光学显微镜以2.3埃（ångström）——约1/4纳米——的精度分辨个体荧光标记[13]。

新型技术能让传统显微镜达到类似的分辨率，比如Jungmann和他的团队在 2023年描述的一种策略用不同DNA片段给单个分子做标记[14]。这些分子再用染料标记的互补DNA片段检测，这些片段能与它们的靶标瞬时反复结合，从而让个别的荧光“闪”点在同步成像时模糊成团状。这种通过顺序成像增强分辨率（RESI）技术或能分辨DNA片段上的个体碱基对，用标准荧光显微镜达到埃尺度分辨率。

这种“一步纳米级膨胀”（ONE）显微镜技术由德国哥廷根大学医学中心的神经科学家Ali Shaib和Silvio Rizzoli领导的团队开发，无法完全实现这种尺度的分辨率。不过，ONE显微镜技术提供了前所未有的机会，能对分离后或细胞内的个体蛋白和多蛋白复合物的精细结构直接成像。

名为RESI的成像形式或能对DNA内的个体碱基对进行成像。来源：Max Iglesias, Max Planck Institute of Biochemistry

ONE是一种基于膨胀显微镜技术的方法，需要将样本中蛋白质化学耦合到水凝胶基质上，使蛋白质断裂，再让水凝胶体积膨胀1000倍。碎片会向各方向均匀膨胀，保留蛋白质的结构，并能用标准的共聚焦显微镜解析相隔几纳米的特征。“我们取了抗体放在凝胶里，膨胀后做标记，然后喊道，‘哇我们看到Y型了！’”Rizzoli在提到这些蛋白的特征形状时说道。

Rizzoli说，ONE显微镜技术或有助于揭示构象动态的生物分子的信息，或根据血液样本对蛋白质错误折叠疾病（如帕金森病）进行视诊。Jungmann也很期待将RESI用于记录疾病中个体蛋白的重组或是对药物的反应。它甚至有望进一步提升分辨率。“也许空间分辨率的极限还没有到头，”Jungmann说，“也许还能更好。”

细胞图谱

如果你想找一家咖啡店，谷歌地图能给出附近的选择，并告诉你怎么过去。而更复杂的人体地图却没有类似导航，好在多个细胞图谱项目的持续进展或很快绘制出生物学家翘首以盼的全组织细胞图谱，这些进展来自单细胞分析和“空间组学”技术的进步。

这其中规模最大可能也是目标最高的项目是“人类细胞图谱”（HCA）。该合作组2016年由英国威康桑格研究所的细胞生物学家Sarah Teichmann和如今在加州Genentech生物科技公司担任研究与早期开发主管的Aviv Regev发起。该项目聚集了近100个国家的约3000名科学家，使用来自1万名供体的组织。包括HCA在内的这个生态系统凝聚了各式各样的细胞与分子图谱计划，包括人类生物分子图谱计划（HuBMAP）和创新性神经技术大脑研究（BRAIN）细胞普查网络（BICCN），两个计划都由美国国立卫生研究院资助，此外还有华盛顿的艾伦脑科学研究所资助的艾伦脑细胞图谱（Allen Brain Cell Atlas）。

斯坦福大学基因组学家、HuBMAP管理委员会前联合主席Michael Snyder表示，这些计划在一定程度上归功于在单细胞水平上解码分子内容分析工具的开发和快速商业化。比如，Snyder的团队会定期使用加州10X Genomics的Xenium平台进行空间转录组学分析。这些平台可每周对4个组织样本的400个基因的表达同时分析。基于多重抗体的技术，如马萨诸塞州Akoya Biosciences的PhenoCycler平台，能让该团队以单细胞分辨率追踪大量蛋白质，并能实现3D组织重建。其他“多组学”方法能对同一细胞的多个分子类别进行同步分析，包括RNA表达，染色质结构和蛋白质分布。

人体肺部的细胞图谱描绘了不同细胞类型，以及它们如何受到调控。来源：Peng He

去年有几十个研究报道了利用这些技术在器官图谱上取得的进展。比如6月，HCA就发表了对49个人体肺数据集的综合分析[16]。Teichmann说：“有了肺部的清晰图谱，就能了解肺纤维化、不同癌症甚至是COVID-19中的变化。”2023年，《自然》发表了来自HuBMAP计划的论文合集，《科学》发表了来自BICCN计划的论文合集。

不过，仍有大量工作需要完成——Teichmann估计至少还要5年时间HCA才能完成任务。但最后的图谱将意义巨大。Teichmann预计使用图谱数据指导组织和细胞特异性药物寻靶，而Snyder迫切想要了解细胞微环境如何帮助我们了解癌症和肠易激综合征这类复杂疾病的风险和病因学。“我们在2024年能解决这些问题吗？我不认为，这是个需要很多年才能回答的问题，”Snyder说，“但它对整个领域的推动不容小觑。”

纳米材料3D打印

很多事情在纳米尺度上都会变得奇特而有趣。这会增加材料科学的预测难度，但也意味着纳米尺度工程师能构建有特殊性能的轻量级材料，比如高强度，与光或声的特殊作用，以及更好的催化或储能能力。

目前已有不少精准构建这类纳米材料的策略，大部分使用激光诱导光敏材料实现图案化“光聚合”（photopolymerization），过去几年里，科学家成功克服了影响这些技术广泛应用的诸多限制。

研究人员使用水凝胶构建了微尺度金属结构。来源：Max Saccone/Greer Lab

一个障碍是速度，佐治亚理工学院工程师Sourabh Saha表示，利用光聚合的纳米结构组装的速度是其他纳米尺度3D打印技术速度的约三个数量级。这在实验室或许绰绰有余，但对于大规模量产或工业流程还是太慢了。2019年，Saha和香港中文大学机械工程师Shih-Chi Chen与同事证明，他们能用图案化2D光片加速光聚合，而不需要传统的脉冲激光[17]。Saha说：“这能把速度提高1000倍，同时还能保持100纳米的特征。” Chen等研究人员的后续工作发现了实现更快纳米制造的其他方法[18]。

另一大挑战是：不是所有材料都能通过光聚合直接打印，比如金属就不行。但加州理工学院的材料科学家Julia Greer提出了一种很聪明的办法。2022年，她和她的同事描述了一种方法，让光聚合水凝胶作为微模板，再注入金属盐，加工时能使该金属在收缩的同时形成模板结构[19]。虽然这一技术一开始的目标是微观结构，但Greer团队也将这一策略用于纳米制造，他们团队很看好该技术用于从高熔点金属和合金制造功能性纳米结构的潜力。

最终一个障碍是经济上的，也是最难攻克的。Saha指出，光聚合方法使用的许多基于脉冲激光的系统成本可达50万美元。但现在也有更多实惠的选择。卡尔斯鲁厄理工学院的物理学家Martin Wegener和他的同事研究了比标准脉冲激光更便宜、紧凑、耗能更少的持续激光[20]。而且Greer创办了一个公司，对制造纳米架构金属层的工艺进行商业化，或能用于制造下一代防弹衣或超耐用和耐冲击航空器外壳等。

写原创有奖励！2025面包板原创奖励正在进行中