tag 标签: 模型

相关博文
  • 热度 1
    2024-9-11 16:06
    164 次阅读|
    0 个评论
    前言 在基于模型的开发(MBD)领域,模型的质量对于最终产品的成功至关重要。通过阅读本文,您可了解如何提升模型质量,并在整个开发过程中确保模型的一致性和质量。 什么是更好的建模? 更好的建模,也被称为是创建卓越软件模型的方法,对于开发高质量的软件至关重要。这一方法的关键方面包括通过精心的布局和设计保持一致的外观,确保对象和信息不被隐藏或遮挡,并遵循结构化的方法。例如,信号流应当遵循从左到右的方向,应避免信号线交叉,所有模块名称的位置应当固定在特定位置以保持一致性。这种全面的方法可确保模型不仅在视觉上清晰明确,更能保证模型的健壮性和无误,最终提高代码质量。 如何让模型变得更好? 为了实现更好的模型,关注几个关键方面非常重要。以下是其中部分内容的详细解析: 1. 一致的布局和设计: 布局和设计对于模型具有良好的建模风格相当重要,有助于创建外观一致的更好的模型。例如,确定模型输入端口和输出端口的数量十分重要。随意的建模风格可能会对模型的可读性和可理解性有重大影响,这也是为什么需要通过通用风格指南来确保模型易于理解的原因,尤其是对于外部评审人员来说。 信号流:信号流应当遵循从左至右的方向,即从左侧的所有输入端口到位于右侧的所有输出端口。 信号线交叉:应避免或明确信号线交叉。 模块名称:所有模块名称的位置都应固定在一个特定的位置,比如模块下方。 图1: 从左至右的信号流 2. 可读性和可理解性: 为了确保模型易于理解,通用风格指南必不可少。模型的设计不应隐藏或遮挡相关对象和信息。例如,有些模块可能难以识别,这使得他们是否是常量或其数值的含义不够清楚。一个拥有良好设计的模型应当确保模块清晰可识别、大小合适,并对常量明确命名,以避免混淆。 魔法常量:"Magic constants(魔法常量)"是来源或含义不明确的值,应当避免。这些不明确的值可导致误解和错误。风格指南建议在工作区中对常量进行命名和定义,以此来增加可理解性和可维护性,帮助区分不同的常量并明确它们在模型中的作用。 信号命名:一致的信号命名可提升数据流的可理解性,并减少维护工作量。总体上讲,它还有助于提高整个模型的可理解性。 图2: 信号流的可读性和可理解性 3. 健壮性和避免错误: 除了确保模型布局的一致性和清晰的可读性,建模风格指南同样强调模型的健壮性,并避免易出错的建模模式。这些指南旨在提升生成代码的可测试性和质量。比如,一个设计不当的模型可能导致功能问题。此处考虑一个有三个操作数的乘积运算模块;根据信号流的顺序和数据类型,此操作可能会产生不同的结果,从而潜在地导致错误。为了避免这样的问题,应当采用级联(cascade)方式进行建模操作,即根据要求明确定义操作的步骤顺序。通过将以上所有推荐考虑在内并应用风格指南,最终的模型的健壮性和可靠性更加优秀,功能性显著提升,并且降低出错的可能性。 强数据类型:信号和接口的数据类型需强类型化,因为不一致的数据类型会导致代码效率低下、精度降低、或范围违规。 如何实现更好的模型? 在MBD流程中,提高模型质量对于交付成功的最终产品至关重要。MES Model Examiner® (MXAM)和MES Model & Refactor® (MoRe)是实现这一目标必不可少的工具。值得一提的是,现在MoRe已集成在所有MXAM用户许可证中,用户获得了使用高级建模功能的权限。 MXAM提供全面的静态分析,确保模型符合AUTOSAR和ISO 26262等标准。它评估模型结构和度量指标,并提供检查建模规范的最优方法。这有助于保持模型布局和设计的一致性,使模型在视觉上清晰易读。同时,MXAM还能自动修复违背建模规范的地方,避免”魔法常量“和确保命名惯例清晰明确,提升模型的可读性和可理解性。 MoRe与MXAM相辅相成,通过在Simulink中自动创建符合建模规范的模型布局,显著降低模型重构时间,并提升一致性。这样自动化帮助最大程度上减少手动错误,提高模型的健壮性和可靠性。通过确保以级联(cascade)方式进行建模操作,MoRe降低了功能问题出现的可能性,使模型健壮性提升,并且无错误。 MXAM和MoRe可共同简化开发流程,确保创建模型的设计一致、易于理解、健壮且不易出错。这样的集成最终会带来更高质量的软件开发和更高效的工作流程。 注:本文转载自MES模赛思,作者MES模赛思
  • 热度 14
    2016-3-3 10:33
    1268 次阅读|
    0 个评论
    这个4阶段职业发展模型是我在08年听一个硬件大boss介绍的,深以为然,这大boss, 虽然是亚裔,70年代就加入了Tellabs做硬件,一直做到了硅谷公司的硬件老大,各种体会当然是字字珠玑。   参考这个模型,最大的体会:职业发展一定有耐心和毅力,一步一个脚印,参考同类型美国公司工程师的资历和水平,基本来说 Stage 1: 1-5年, Engineer Stage 2: 5-10 年, Senior Engineer Stage 3: 10-15年,Leader/Manager Stage 4: 15+ , Director   There are four-Stage Career model: Stage 1- Depending on other •The works is never entirely an engineer's own. It is part of larger project and activities   Stage 2- Contributing independently •Work independently and produce results •Develop credibility and a reputation   Stage 3- Contributing through others •Develop a breadth of technical skills and apply those skills in several areas: Building network people inside and outside his or her own work and help to get it works done, also become involved in the development of people and stimulation of others through ideas and information.   Stage 4- Leading through vision •Exercise significant influence over critical decision in the organization. •Help to shape the future direction of major parts of the organization
  • 热度 20
    2016-1-22 22:33
    1071 次阅读|
    0 个评论
    1.更改文章中的内容  Dede教程 -598080707.NET   update dede_addonarticle set body=replace(body,'原来的字符','替换后的字符')   例如:update dede_addonarticle set body=replace(body,'音乐下载','音乐试听) 2.更改缩略图目录   SQL命令:update dede_archives set litpic=replace(litpic,'原来的字符','替换后的字符') 例如:update dede_archives set litpic=replace(litpic,'uplimg,'tupian')   3.批量替换文章模型中内容部分图片链接路径.   update dede_addonarticle set body=replace(body,'src="http://www.chenchr.com','src="http://chenchr.com');   例如:把图片路径由原来的 http://www.chenchr.com替换成http://chenchr.com 4.批量替换文章模型中内容部分超链接.   update dede_addonarticle set body=replace(body,'href="http:// www.chenchr.com ','href="http:// chenchr.com ');   例如:把文章模型中的超链接由原来的 http://www.chenchr.com替换成http:// chenchr.com 5.批量替换文章模型中内容部分图片锚文本文字.   update dede_addonarticle set body=replace(body,'alt="http:// www.chenchr.com /','alt="http:// .chenchr.com /');   例如:把文章模型中的图片锚文本信息由原来的http:// www.chenchr.com 替换成 http:// chenchr.com 6.批量替换软件模型内容部分超链接   update dede_addonsoft set introduce=replace(introduce,'href="http:// chenchr.com /js/ys.html','href="http:/ chenchr.com /index.html');   例如:把软件模型内容中超链接由原来的 http://www.chenchr.com/js/ys.html替换成http:/chenchr.com/index.html 7.批量替换文章模型中作者字段   update dede_archives set writer=replace(writer,'http://www. chenchr.com ','http:// chenchr.com ');   例如:把文章模型中的作者由原来的 http://www.chenchr.com替换成http:// chenchr.com 8.批量替换文章模型中来源字段   update dede_archives set source=replace(source,'心情驿站 WWW.JINQQ.NET','DEDE技术吧 598080707.NET');   例如:把文章模型中的帖子来源由原来的工业炉www. chenchr.com 替换成 电炉  chenchr.com 9.批量替换文章命名规则  DEDE技术吧 -598080707.NET   update `dede_arctype` set namerule='{typedir}/{aid}.html';   例如:把站内所有文章模型命名规则全部替换成{ typedir}/{aid}.html这样一种形式 10批量替换软件模型演示地址超链接   update dede_addonsoft set writer=replace(officialUrl,'http:/www. chenchr.com ','http:// chenchr.com ');   例如:把软件模型原始地址超链接由原来的 http:/www.chenchr.com替换成http:// chenchr.com
  • 热度 24
    2012-12-6 12:07
    1912 次阅读|
    2 个评论
                  在北京,有个公司做这行的都知道,那就是一直对外宣传做美信的宏图电子。本人有幸认识了北京公司的负责人,平时也有一些沟通和交流。他们十几年专注于某一个品牌的做法,对我很有启发,于是也促使我做了这么一番思考,希望对行业朋友有借鉴意义。 前提: 确立企业的目标客户群所在,并明确目标客户群所在的行业以及产品特点,清晰的制定出3-5年企业所经营产品的服务方向和专业应用领域。   一、现货供应(备货、渠道现货) 1、自己的优势备货,包括有终端用户在用的常规备货,和独特优势的现货备货; 2、(他人的)渠道现货,包括本区域内,国内,代理及国外的对应供货渠道资源; 3、(往往是终端的)库存寄售货,来自终端用户的寄售现货; ——以市场分析,销售为主导,长时间多范围的渗透和传播 二、技术支持 1、应用方案推荐 2、开发板卡等销售 3、软件、源程序等支持 4、培训课件下载等 5、新品推荐等 ——以技术工程师为主,尝试着自主或联合代理商等朋友提供相关支持服务   三、相关商务支持 1、参考价格咨询,包括现货价格、订货价格等; 2、PDF在线查询; 3、报关等行业需求; 4、统一对外的服务热线; 5、库存寄售在线通道; 6、其他 ——以市场、销售为主,尝试搭建立体的业务模型,一站式解决客户需求   附录: 1、产品包括: 1)主打产品全线或者主体产品; 2)涉及的相关品牌包括:XXXX等; 3)典型的配套器件; 4)常规外围配套; 5)开发板卡、软件等; 2、市场推广,交叉性行业应用展会、网络平台(独立社区和公司EDM渗透)、高端的研讨会、技术应用文章等软文推送。 3、相关事项:本着节约高效的原则,选择最高效的方式,加强行业受众的大面积推广,长期推广,不只是简单计较某一客户的得失,而是把重点放在上游渠道和供需信息流的建设上。          这个模型是早些年总结的,目前行业里有很多分销商已经开始尝试往这个方向努力了,专注某一个品牌或者专注于某一个应用领域,而且都取得了不错的业绩。专注容易让人记住你,在这么多分销商的大海里你被人记住,本身就是一种成功。专注也会让人加深对你的了解,更加感受你的实力,这就是企业的影响力。独立分销商也可以借鉴下,希望有所帮助。
  • 热度 23
    2011-6-24 09:43
    1967 次阅读|
    0 个评论
    其它一些可以从PV电池直流I-V曲线中得出的数据表征了它的总体效率——将光能转换为电能的好快程度——可以用一些参数来定义,包括它的能量转换效率、最大功率性能和填充因数。最大功率点是最大电池电流和电压的乘积,这个位置的电池输出功率是最大的。   Other data that can be derived from the DC I-V plot of a PV cell characterize its overall efficiency—how well it transforms light into electricity—and can be defined by a number of parameters, including its energy conversion efficiency, its maximum power capability, and its fill factor. The maximum power point is the product of the maximum cell current and voltage where the power output of the cell is greatest.   填充因数 (FF)是将PV电池的I-V特性与理想电池I-V特性进行比较的一种方式。理想情况下,它应该等于1,但在实际的PV电池中,它一般是小于1的。它实际上等于太阳能电池产生的最大功率(P MAX =I MAX V MAX )除以理想PV电池产生的功率。填充因数定义如下:   The fill factor (FF) is a way to compare a PV cell’s I‑V characteristics to those of an ideal cell. Ideally, it would have a value of one, but in practical PV cells, it is always less than one. It is essentially the maximum power produced by a solar cell (P MAX =I MAX V MAX ) divided by the power produced by an ideal PV cell. The fill factor is defined as:     FF = I MAX V MAX /(I SC V OC )   其中I MAX =最大输出功率时的电流,V MAX =最大输出功率时的电压,I SC =短路电流,V OC =开路电压。 where I MAX = the current at the maximum power output, V MAX = the voltage at the maximum power output, I SC = the short-circuit current, and V OC = the open-circuit voltage.     转换效率(h)是光伏电池最大输出功率(P MAX )与输入功率(P IN )的比值,即: The conversion efficiency (h) is the ratio of the maximum power output (P MAX ) to the power input (P IN ) to the photovoltaic cell, or     h = P MAX /P IN   PV电池的I-V测量 可以在正偏(光照下)或反偏(黑暗中)两种情况下进行。正偏测量 是在PV电池照明受控的情况下进行的,光照能量表示电池的输入功率。用一段加载电压扫描电池,并测量电池产生的电流。一般情况下,加载到PV电池上的电压可以从0V到该电池的开路电压(V OC )进行扫描。在0V下,电流应该等于短路电流(I SC )。当电压为V OC 时,电流应该为零。在如图1所示的模型中,I SC 近似等于负载电流(I L )。   I‑V measurements of a PV cell can be performed under forward-biased (in the light) or reverse-biased (in the dark) conditions. Forward bias measurements are performed under controlled illumination of the PV cell, with the light energy representing the input power to the cell. The cell is also swept through a range of applied voltages, and the resulting current from the cell is measured. Typically, the voltage applied to the PV cell might be swept from 0 V to the open-circuit voltage (V OC ) for that cell. At 0 V, the current is expected to equal the value of the short-circuit current (I SC ). When the voltage is set at V OC , the current is expected to be zero. In the model of Fig. 1 , I SC is approximately equal to the load current (I L ).       PV电池的串联电阻(r s )可以从至少两条在不同光强下测量的正偏I-V曲线中得出。光强的大小并不重要,因为它是电压变化与电流变化的比值,即曲线的斜率,就一切情况而论这才是有意义的。记住,曲线的斜率从开始到最后变化很大,我们所关心的数据出现在曲线的远正偏区域(far-forward region),这时曲线开始表现出线性特征。在这一点,电流变化的倒数与电压的函数关系就得出串联电阻的值:   The series resistance of a PV cell (r s ) can be determined from at least two forward-biased I‑V curves, measured at different light intensities. The magnitudes of the light intensities are not important, because it is the change in voltage with the change of current, or slope of the curve, that is meaningful in all cases. Bearing in mind that the slope of the curve changes dramatically from beginning to end, meaningful data can be found at the curve’s far-forward region, where the curve starts to take on linear characteristics. The inverse of the change in current as a function of voltage at this point gives the value for the series resistance:   r s = ΔV/ΔI   到目前为止本文所讨论的测量都是对暴露在发光输出功率下,即处于正偏条件下的PV电池进行的测量。但是PV器件的某些特征,例如分流电阻(r sh )和漏电流,恰恰是在PV电池避光即工作在反偏情况下得到的。对于这些I-V曲线,测量是在暗室中进行的,从起始电压为0V到PV电池开始击穿的点,测量输出电流并绘制其与加载电压的关系曲线。利用PV电池反偏I-V曲线的斜率也可以得到分流电阻的大小(如图5所示)。从该曲线的线性区,可以按下列公式计算出分流电阻:   The measurements discussed so far have been made with a PV cell exposed to light-generating output power, under forward-biased conditions. But some of the characteristics of a PV device, such as the shunt resistance (r sh ) and the leakage current, are best found with the PV cell shielded from light and operating under reverse-biased conditions. For these I‑V plots, measurements are made in a dark enclosure, from a starting voltage of 0 V to a point at which the PV cell begins to break down, with the output current measured and plotted as a function of the applied voltage. The shunt resistance can also be found by using the slope of a PV cell’s reverse bias I‑V curve ( Fig. 5 ). From the linear region of the curve, the shunt resistance can be found from   r sh = ΔV Reverse Bias /ΔI Reverse Bias                          V 反偏                                    用于估算r sh 的线性区                                          ΔI 反偏 ΔV 反偏       log I 反偏     图5. 利用PV电池反偏I-V曲线的斜率可以得到PV电池的分流电阻。   Fig 5. A PV cell’s shunt resistance can be found by using the slope of a PV cell’s reverse bias I‑V curve.   除了在没有任何光源的情况下进行这些测量之外,我们还应该对PV电池进行正确地屏蔽,并在测试配置中使用低噪声线缆。   In addition to making these measurements in the absence of any light sources, the PV cell should also be properly shielded and low-noise cables used in the test setup.           吉时利太阳能电池(光电)的电特性和测量http://www.keithley.com.cn/solar_cell EP/238:Learn the Secret to Solar Cell (Photovoltaic) Test. Get our new solar cell information kit today! http://www.keithley.com.cn/promo/ep/238 吉时利太阳能电池(光电)的电特性和测量http://www.keithley.com.cn/solar_cell
相关资源
  • 所需E币: 0
    时间: 2024-10-21 11:13
    大小: 3.7KB
    上传者: huangyasir1990
    一、Llama3大模型是什么?Llama是由Meta的人工智能研究团队开发并开源的大型语言模型(LLM),继Llama2+模型之后,Meta进一步推出了性能更卓越的MetaLlama3系列语言模型,包括一个80亿参数模型和一个700亿参数模型。Llama370B的性能美Gemini1.5Pro,全面超越Claude大杯,而400B+的模型则有望与Claude超大杯和新版GPT-4Turbo掰手腕二、llama2和llama3有什么区别?llama3与llama2的模型架构完全相同,只是model的一些配置(主要是维度)有些不同,llama2推理的工程基本可以无缝支持llama3。在meta官方的代码库,模型计算部分的代码是一模一样的,也就是主干decoderonly,用到了RoPE、SwiGLU、GQA等具体技术。通过对比huggingface模型中的config.json,首先可以看出,模型都是LlamaForCausalLM这个类,模型结构不变。三、Llama3的目标和最佳表现Llama3拥抱开源社区。通过不断响应用户反馈来提升模型效果,并且持续在负责任的AI领域扮演重要角色。近期发布的基于文本的模型是Llama3集合的一部分。未来的目标是使Llama3成为多语言、多模态、长上下文、持续提升核心能力,如:推理和代码生成。得益于pretraining和post-training的改进,我们的pretrained模型和instruction-fine-tuned模型是8B和70B最好的大模型。post-training的改进包括:降低误拒率、改进的对齐方法、模型回答的多样性。同时,我们也看到Llama3综合能力的提升,如:推理、代码生成、指令遵循。这使得Llama3更加可控。四、从头构建LLaMA3大模型(Python)首先是模型架构的选择。原工作用的是GPTNeo架构(可以看他们的config),这个算是很老的模型了,最初是EleutherAI用来复现追踪GPT-3的工作的,现在用的也比较少了。我打算选用LLaMA架构,也算是符合研究主流、便于推广。LLaMA3主要多了个GQA,也是现在模型的主流,我这里也用一下。其次是数据的选择。既然是复现,就直接贯彻拿来主义,用原工作开源的数据集(主要是从头生成要花不少api费用)。原工作第一版的时候用的是GPT-3.5生成的数据,后面社区有人更新了第二版,是用GPT-4生成的,比原数据更好,就用它了。最后是训练。其实我手上就两张306012G和4060Ti16G,训这个确实是绰绰有余,但我还是不想在桌前吵我自己,于是继续用Colab。现在Colab可以直接看到剩余使用时长了,虽然已经被砍到只有3h左右的用卡时间,但至少心里有个底,况且3h训我们这个也完全够了。五、用户与LlaMA3进行交互的方式主要分为6个阶段。阶段1:通过按原样使用模型,以适应广泛的应用场景。第2阶段:在用户自定义的应用程序中使用模型。第3阶段:使用提示工程来训练模型,以产生所需的输出。第4阶段:在用户端使用提示工程,同时深入研究数据检索和微调,这仍然主要由LLM提供商管理。第5阶段:把大部分事情掌握在自己(用户)手中,从提示工程到数据检索和微调(RAG模型、PEFT模型等)等诸多任务。第6阶段:从头开始创建整个基础模型——从训练前到训练后。为了最大限度地利用这些模型,建议最好的方法是使用上面的第5阶段,因为灵活性很大程度上取决于用户自身。能够根据领域需求定制模型对于最大限度地提高其收益至关重要。因此,如果不参与到系统开发中,是不能产生最佳回报的。
  • 所需E币: 5
    时间: 2024-7-18 14:15
    大小: 9.96MB
    上传者: weixianghui
    Matlab simulink模型包括:1. State of Charge(SOC) 扩展卡尔曼滤波和无迹卡尔曼滤波估计算法2. 主动均衡算法3.故障诊断、预充电
  • 所需E币: 0
    时间: 2024-6-25 10:16
    大小: 2.75KB
    上传者: 开心就很好了
    一、StableDiffusion是什么?StableDiffusion是一个文本到图像的潜在扩散模型,由CompVis、StabilityAI和LAION的研究人员和工程师创建。它使用来自LAION-5B数据库子集的512x512图像进行训练。使用这个模型,可以生成包括人脸在内的任何图像,因为有开源的预训练模型,所以我们也可以在自己的机器上运行它。近几年,随着算力的增长,一些过去算力无法满足的复杂算法得以实现,其中有一种方法叫“扩散模型”——一种从气体扩散的物理过程中汲取灵感并试图在多个科学领域模拟相同现象的方法。该模型在图像生成领域展现了巨大的潜力,成为今天StableDiffusion的基础。二、StableDiffusion如何工作?StableDiffusion是一种深度学习模型。我们将深入探讨StableDiffusion是如何工作的。你为什么需要知道这部分内容?除了它本身就是一个引人入胜的主题之外,对内在机制的一些理解将使您成为更好的艺术家。您可以正确使用该工具以获得更高精度的结果。文本到图像(text-to-image)与图像到图像(image-to-image)有何不同?什么是CFG价值?什么是降噪强度?您将在本文中找到答案。三、StableDiffusion能做什么?在最简单的形式中,StableDiffusion是一种文本到图像模式。给它一个文本提示(TextPrompt)。它将返回与文本匹配的图像。StableDiffusion将文本提示转换为图像。四、StableDiffusion的优势1、提供了一个基于网页浏览器的前端交互WebUI,用户只需要简单的输入prompt和设置参数就可以生成难以置信的图片(傻瓜式操作);2、只需文本提示输入就能够模拟和重建几乎任何以视觉形式表达的概念3、提供了多种功能,如文本到图片转换txt2img、图片到图片转换img2img等,能满足使用者的多种需求4、通过调节相关参数可以生成不同的效果,用户可以根据自己的需要在和喜好在本地客户端进行AI创作;5、可扩展性极强,用户可以自由地下载SD模型,LoRA模型,ControlNet模型,还包括模型融合等高级功能6、AI绘图社区支持,专门的模型下载网站HuggingFace和绘画分享网站Civitai(C站)五、扩散模型扩散模型是一种生成模型,用于生成与训练数据相似的数据。简单的说,扩散模型的工作方式是通过迭代添加高斯噪声来“破坏”训练数据,然后学习如何消除噪声来恢复数据。一个标准扩散模型有两个主要过程:正向扩散和反向扩散。在正向扩散阶段,通过逐渐引入噪声来破坏图像,直到图像变成完全随机的噪声。在反向扩散阶段,使用一系列马尔可夫链逐步去除预测噪声,从高斯噪声中恢复数据六、StableDiffusion组成StableDiffusion的核心思想是,由于每张图片满足一定规律分布,利用文本中包含的这些分布信息作为指导,把一张纯噪声的图片逐步去噪,生成一张跟文本信息匹配的图片。它其实是一个比较组合的系统,里面包含了多个模型子模块,接下来把黑盒进行一步步拆解。stablediffusion最直接的问题是,如何把人类输入的文字串转换成机器能理解的数字信息。这里就用到了文本编码器textencoder(蓝色模块),可以把文字转换成计算机能理解的某种数学表示,它的输入是文字串,输出是一系列具有输入文字信息的语义向量。有了这个语义向量,就可以作为后续图片生成器imagegenerator(粉黄组合框)的一个控制输入,这也是stablediffusion技术的核心模块。图片生成器,可以分成两个子模块(粉色模块+黄色模块)来介绍。七、StableDiffusion的应用前景StableDiffusion在图像处理、艺术创作、广告设计等领域具有广泛的应用前景。图像处理:StableDiffusion可以用于图像的生成、去噪、增强等任务。通过调整模型的参数和输入,我们可以生成符合特定需求的图像,如风格迁移、超分辨率重建等。艺术创作:StableDiffusion为艺术家提供了一种全新的创作方式。他们可以通过输入文字描述,让模型自动生成符合其想象的图像。这种方式不仅可以提高创作的效率,还可以帮助艺术家探索新的创作灵感。广告设计:StableDiffusion可以根据广告的需求,自动生成符合要求的图像素材。这不仅可以节省设计师的时间和精力,还可以提高广告的吸引力和效果。此外,StableDiffusion还可以与其他技术结合使用,如自然语言处理(NLP)技术,实现更复杂的任务,如文本到视频的转换等
  • 所需E币: 0
    时间: 2024-5-25 17:37
    大小: 2.62KB
    2024全新Langchain大模型AI应用与多智能体实战开发一、Langchain是什么LangChain是一个新一代的AI开发框架,旨在释放大语言模型的潜能,为开发者提供便捷的开发工具和接口。LangChain是一个帮助在应用程序中使用大型语言模型(LLM)的编程框架。与生成式AI中的所有东西一样,这个项目的发展也非常迅速。2022年10月,它先是作为一款Python工具,然后在今年2月增加了对TypeScript的支持。到今年4月,它支持多种JavaScript环境,包括Node.js、浏览器、CloudflareWorkers、Vercel/Next.js、Deno和SupabaseEdgeFunctions。二、什么是智能体?LLM智能体的定义非常宽泛:它们指的是所有将LLMs作为核心引擎,并能够根据观察对其环境施加影响的系统。这些系统能够通过多次迭代“感知⇒思考⇒行动”的循环来实现既定任务,并常常融入规划或知识管理系统以提升其表现效能。你可以在Xietal.,2023的研究中找到对智能体领域综述的精彩评述。 三、深入6大组件LangChain中的具体组件包括:模型(Models),包含各大语言模型的LangChain接口和调用细节,以及输出解析机制。提示模板(Prompts),使提示工程流线化,进一步激发大语言模型的潜力。数据检索(Indexes),构建并操作文档的方法,接受用户的查询并返回最相关的文档,轻松搭建本地知识库。记忆(Memory),通过短时记忆和长时记忆,在对话过程中存储和检索数据,让ChatBot记住你是谁。链(Chains),是LangChain中的核心机制,以特定方式封装各种功能,并通过一系列的组合,自动而灵活地完成常见用例。代理(Agents),是另一个LangChain中的核心机制,通过“代理”让大模型自主调用外部工具和内部工具,使强大的“智能化”自主Agent成为可能!你的App将产生自驱力!总体来讲,LangChain是AI智能时代基于LLM大模型的开发框架。第一、它是上下文相关的,为LLM应用程序开发的整体生命周期提供全流程的框架支持。第二、使用LLM大模型的推理能力为LangChain开发的LLM应用程序提供规划能力(Planning)。第三、LangChain围绕开发LLM应用程序的整体流程提供ModelI/O(Prompt输入、Embedding向量化、LLM大模型适配以及大模型回答适配等)、Retriieval(数据源加载、转换、向量化、存入向量数据库、检索以及向量相识度计算等)、Chains(用于完成特定更高级别任务的组件组装)、Memory(短期记忆、长期记忆)、Agents(LLMAPP)、Callbacks(提供向外部回调的功能)。LangChain是一个旨在帮助您轻松构建大语言模型应用的框架,它提供如下功能:为各种不同基础模型提供统一接口(参见Models)帮助管理提示的框架(参见Prompts)一套中心化接口,用于处理长期记忆(参见Memory)、外部数据(参见Indexes)、其他LLM(参见Chains)以及LLM无法处理的任务的其他代理(例如,计算或搜索)。因为LangChain有很多不同的功能,所以一开始可能很难理解它的作用。因此我将在本文中介绍LangChain的(当前)六个关键模块,以便您更好地了解其功能。四、LangChain在不同领域的应用案例金融行业:LangChain应用系统可以应用于金融领域,帮助银行和金融机构进行智能客服、风险管理、舆情监控等工作,提升金融服务的质量和效率。医疗健康:在医疗健康领域,LangChain可以用于患者健康管理、医疗咨询、疾病诊断等方面,为医疗机构和患者提供更好的医疗服务。教育培训:LangChain应用系统可以用于教育培训行业,支持在线教育、智能学习系统、智能答题系统等应用,提升教育教学的效果和效率。零售行业:在零售行业,LangChain可以应用于智能客服、商品推荐、用户评论分析等方面,帮助零售企业提升销售额和客户满意度。LangChain应用系统的出现,为各行各业带来了新的发展机遇和挑战。随着人工智能技术的不断进步和应用场景的不断拓展,我们有理由相信,LangChain将会在未来发挥越来越重要的作用,为社会进步和发展做出更大的贡献。
  • 所需E币: 5
    时间: 2024-3-13 13:47
    大小: 1.45MB
    上传者: 美格智能
    大模型作为人工智能发展脉络中的里程碑,引发了新一轮的科技创新浪潮其以强大的计算能力和深度学习技术,极大地提高了内容生产效率,促进内容生产方式颠覆式变革。各行各业纷纷布局大模型应用,把握智能化发展的机遇。然而,大模型也面临隐私泄露、侵犯第三方权益以及违背伦理等潜在风险,引发了社会各界的关注和担忧。随着大模型的广泛应用,加快完善大模型的立法监管以确保大模型的应用与发展符合伦理道德和社会价值观,推动人工智能科技的健康发展变得迫在眉睫。世界上主要国家和地区均着手并加快完善大模型相关的法律监管。例如,欧盟以《人工智能法案》为核心,结合大模型可能涉及的其他领域的立法,逐步建立起专项法案为主、现存法规为辅的人工智能法律监管框架;美国对于人工智能大模型的立法较为分散,各州分别各自推进人工智能立法,联邦政府则试图在现有的立法框架及监管规则内对大模型及人工智能进行规制,但同时,人工智能相关的联邦专项立法提案也在推进当中。我国围绕网络安全、数据安全、个人信息保护等重点领域制定了法律法规,并及时跟进人工智能技术创新发展态势,先后针对互联网信息推荐、生成式人工智能等技术领域出台了管理办法,建立了法律法规和标准规范相协调的人工智能监管制度体系。
  • 所需E币: 5
    时间: 2024-3-13 13:36
    大小: 4.89MB
    上传者: 美格智能
    2023金融业大模型应用报告
  • 所需E币: 3
    时间: 2024-3-16 21:30
    大小: 936.72KB
    上传者: 电子阔少
    AD15版本3D封装库制作(STEP文件加载)和导出PCB的STEP模型
  • 所需E币: 2
    时间: 2024-3-27 14:09
    大小: 12.39KB
    Grok-1是马斯克AI创企xAI发布的Grok的第一代产品 ,其参数量达到了3140亿,远超OpenAIGPT-3.5的1750亿。这也使得Grok-1成为当前参数量最大的开源大语言模型。Grok-1的模型细节包括如下:基础模型基于大量文本数据进行训练,没有针对任何具体任务进行微调;3140亿参数的MoE模型,在给定token上的激活权重为25%;2023年10月,xAI使用JAX库和Rust语言组成的自定义训练堆栈从头开始训练。xAI遵守Apache2.0许可证来开源Grok-1的权重和架构。Apache2.0许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。项目发布短短四个小时,已经揽获3.4k星标,热度还在持续增加。 
  • 所需E币: 0
    时间: 2023-11-27 11:13
    大小: 5.15KB
    上传者: 开心就很好了
    自动驾驶是高安全型应用,需要高性能和高可靠的深度学习模型,VisionTransformer是理想的选摔。现在主流的自动驾驶感知算法基本都使用了VisionTransformer相关技术,比如分割、2D/3D检测,以及最近大火的大模型(如SAM),VisionTransformer在自动驾驶领域的落地方面遍地开花。5一方面,在自动驾驶或图像处理相关算法岗位的面试题中,VisionTransformer是必考题,需要对其理论知识有深入理解,并且在项目中真实的使用过相关技术。Transformer出自于Google于2017年发表的论文《Attentionisallyouneed》,最开始是用于机器翻译,并且取得了非常好的效果。但是自提出以来,Transformer不仅仅在NLP领域大放异彩,并且在CV、RS等领域也取得了非常不错的表现。尤其是2020年,绝对称得上是Transformer的元年,比如在CV领域,基于Transformer的模型横扫各大榜单,完爆基于CNN的模型。为什么Transformer模型表现如此优异?它的原理是什么?它成功的关键又包含哪些?本文将简要地回答一下这些问题。我们知道Transformer模型最初是用于机器翻译的,机器翻译应用的输入是某种语言的一个句子,输出是另外一种语言的句子。vari*int=nilfmt.Println("i.size:",unsafe.Sizeof(i))//8vari8*int8=nilfmt.Println("i8.size:",unsafe.Sizeof(i8))//8vars*string=nilfmt.Println("s.size:",unsafe.Sizeof(s))//8varps*struct{}=nilfmt.Println("ps.size:",unsafe.Sizeof(ps))//8varsi[]int=nilvarsi1[]int=nilfmt.Println("si.size:",unsafe.Sizeof(si))//24variiinterface{}=nilfmt.Println("ii.size:",unsafe.Sizeof(ii))//16我们以生成我,爱,机器,学习,翻译成<bos>,i,love,machine,learning,<eos>这个例子做生成过程来解释。训练:把“我/爱/机器/学习”embedding后输入到encoder里去,最后一层的encoder最终输出的outputs[10,512](假设我们采用的embedding长度为512,而且batchsize=1),此outputs乘以新的参数矩阵,可以作为decoder里每一层用到的K和V;将<bos>作为decoder的初始输入,将decoder的最大概率输出词向量A1和‘i’做crossentropy(交叉熵)计算error。将<bos>,“i”作为decoder的输入,将decoder的最大概率输出词A2和‘love’做crossentropy计算error。将<bos>,“i”,“love”作为decoder的输入,将decoder的最大概率输出词A3和’machine’做crossentropy计算error。将<bos>,“i”,"love",“machine”作为decoder的输入,将decoder最大概率输出词A4和‘learning’做crossentropy计算error。将<bos>,“i”,"love",“machine”,“learning”作为decoder的输入,将decoder最大概率输出词A5和终止符做crossentropy计算error。那么并行的时候是怎么做的呢,我们会有一个mask矩阵在这叫seqmask,因为他起到的作用是在decoder编码我们的targetseq的时候对每一个词的生成遮盖它之后的词的信息。funcmain(){s:=[]string{"a","b","c"}fmt.Println("s:origin",s)changes1(s)fmt.Println("s:f1",s)changes2(s)fmt.Println("s:f2",s)changes3(s)fmt.Println("s:f3",s)}funcchanges1(s[]string){vartmp=[]string{"x","y","z"}s=tmp}funcchanges2(s[]string){//item只是一个副本,不能改变s中元素的值fori,item:=ranges{item="d"fmt.Printf("item=%s;s[%d]=%s",item,i,s[i])}}funcchanges3(s[]string){fori:=ranges{s[i]="d"}}首先我们需要为每个输入向量(也就是词向量)创建3个向量,分别叫做Query、Key、Value。那么如何创建呢?我们可以对输入词向量分别乘上3个矩阵来得到Q、K、V向量,这3个矩阵的参数在训练的过程是可以训练的。注意Q、K、V向量的维度是一样的,但是它们的维度可以比输入词向量小一点,比如设置成64,其实这步也不是必要的,这样设置主要是为了与后面的Mulit-head注意力机制保持一致(当使用8头注意力时,单头所处理的词向量维度为512/8=64,此时Q、K、V向量与输入词向量就一致了)。我们假设输入序列为英文的"ThinkingMachines"想要深度理解Attention机制,就需要了解一下它产生的背景、在哪类问题下产生,以及最初是为了解决什么问题而产生。首先回顾一下机器翻译领域的模型演进历史:机器翻译是从RNN开始跨入神经网络机器翻译时代的,几个比较重要的阶段分别是:SimpleRNN,ContextualizeRNN,ContextualizedRNNwithattention,Transformer(2017),下面来一一介绍。「SimpleRNN」:这个encoder-decoder模型结构中,encoder将整个源端序列(不论长度)压缩成一个向量(encoderoutput),源端信息和decoder之间唯一的联系只是:encoderoutput会作为decoder的initialstates的输入。这样带来一个显而易见的问题就是,随着decoder长度的增加,encoderoutput的信息会衰减。funcmain(){varc=make(chanint)fmt.Printf("c.pointer=%p\n",c)//c.pointer=0xc000022180gofunc(){c<-1addChannel(c)close(c)}()foritem:=rangec{//item:1//item:2fmt.Println("item:",item)}}funcaddChannel(donechanint){done<-2fmt.Printf("done.pointer=%p\n",done)//done.pointer=0xc000022180}在测试模型的时候,Test:decoder没有label,采用自回归一个词一个词的输出,要翻译的中文正常从encoder并行输入(和训练的时候一样)得到每个单词的embedding,然后decoder第一次先输入bos再此表中的id,得到翻译的第一个单词,然后自回归,如此循环直到预测达到eos停止标记typevisitstruct{a1 unsafe.Pointera2 unsafe.PointertypType}funcdeepValueEqual(v1,v2Value,visitedmap[visit]bool)bool{if!v1.IsValid()||!v2.IsValid(){returnv1.IsValid()==v2.IsValid()}ifv1.Type()!=v2.Type(){returnfalse}//Wewanttoavoidputtingmoreinthevisitedmapthanweneedto.//Foranypossiblereferencecyclethatmightbeencountered,//hard(v1,v2)needstoreturntrueforatleastoneofthetypesinthecycle,//andit'ssafeandvalidtogetValue'sinternalpointer.hard:=func(v1,v2Value)bool{switchv1.Kind(){casePointer:ifv1.typ.ptrdata==0{//not-in-heappointerscan'tbecyclic.//Atleast,allofourcurrentusesofruntime/internal/sys.NotInHeap//havethatproperty.Theruntimeonesaren'tcyclic(andwedon'tuse//DeepEqualonthemanyway),andthecgo-generatedonesare//allemptystructs.returnfalse}fallthroughcaseMap,Slice,Interface://Nilpointerscannotbecyclic.Avoidputtingtheminthevisitedmap.return!v1.IsNil()&&!v2.IsNil()}returnfalse}ifhard(v1,v2){//ForaPointerorMapvalue,weneedtocheckflagIndir,//whichwedobycallingthepointermethod.//ForSliceorInterface,flagIndirisalwaysset,//andusingv.ptrsuffices.ptrval:=func(vValue)unsafe.Pointer{switchv.Kind(){casePointer,Map:returnv.pointer()default:returnv.ptr}}addr1:=ptrval(v1)addr2:=ptrval(v2)ifuintptr(addr1)>uintptr(addr2){//Canonicalizeordertoreducenumberofentriesinvisited.//Assumesnon-movinggarbagecollector.addr1,addr2=addr2,addr1}//Shortcircuitifreferencesarealreadyseen.typ:=v1.Type()v:=visit{addr1,addr2,typ}ifvisited[v]{returntrue}//Rememberforlater.visited[v]=true}switchv1.Kind(){caseArray:fori:=0;i<v1.Len();i++{if!deepValueEqual(v1.Index(i),v2.Index(i),visited){returnfalse}}returntruecaseSlice:ifv1.IsNil()!=v2.IsNil(){returnfalse}ifv1.Len()!=v2.Len(){returnfalse}ifv1.UnsafePointer()==v2.UnsafePointer(){returntrue}//Specialcasefor[]byte,whichiscommon.ifv1.Type().Elem().Kind()==Uint8{returnbytealg.Equal(v1.Bytes(),v2.Bytes())}fori:=0;i<v1.Len();i++{if!deepValueEqual(v1.Index(i),v2.Index(i),visited){returnfalse}}returntruecaseInterface:ifv1.IsNil()||v2.IsNil(){returnv1.IsNil()==v2.IsNil()}returndeepValueEqual(v1.Elem(),v2.Elem(),visited)casePointer:ifv1.UnsafePointer()==v2.UnsafePointer(){returntrue}returndeepValueEqual(v1.Elem(),v2.Elem(),visited)caseStruct:fori,n:=0,v1.NumField();i<n;i++{if!deepValueEqual(v1.Field(i),v2.Field(i),visited){returnfalse}}returntruecaseMap:ifv1.IsNil()!=v2.IsNil(){returnfalse}ifv1.Len()!=v2.Len(){returnfalse}ifv1.UnsafePointer()==v2.UnsafePointer(){returntrue}for_,k:=rangev1.MapKeys(){val1:=v1.MapIndex(k)val2:=v2.MapIndex(k)if!val1.IsValid()||!val2.IsValid()||!deepValueEqual(val1,val2,visited){returnfalse}}returntruecaseFunc:ifv1.IsNil()&&v2.IsNil(){returntrue}//Can'tdobetterthanthis:returnfalsecaseInt,Int8,Int16,Int32,Int64:returnv1.Int()==v2.Int()caseUint,Uint8,Uint16,Uint32,Uint64,Uintptr:returnv1.Uint()==v2.Uint()caseString:returnv1.String()==v2.String()caseBool:returnv1.Bool()==v2.Bool()caseFloat32,Float64:returnv1.Float()==v2.Float()caseComplex64,Complex128:returnv1.Complex()==v2.Complex()default://NormalequalitysufficesreturnvalueInterface(v1,false)==valueInterface(v2,false)}}这便是encoder的整体计算流程图了,Transformer模型中堆叠了多个这样的encoder,无非就是输出连接输入罢了,常规操作。最后再附上一个Transformer的代码实现,读者有兴趣可以跟着自己复现一下Transformer模型的代码。  packagemain  import(    "log"    "sync"  )  funcinit(){    log.SetFlags(log.Lshortfile)  }  funcmain(){    lock:=sync.Mutex{}    //Go1.18新增,是一种非阻塞模式的取锁操作。当调用TryLock()时,    //该函数仅简单地返回true或者false,代表是否加锁成功    //在某些情况下,如果我们希望在获取锁失败时,并不想停止执行,    //而是可以进入其他的逻辑就可以使用TryLock()    log.Println("TryLock:",lock.TryLock())    //已经通过TryLock()加锁,不能再次加锁    lock.Lock()  }
  • 所需E币: 0
    时间: 2023-11-27 14:02
    大小: 4.52KB
    众所周知,视觉系统对于理解和推理视觉场景的组成特性至关重要。这个领域的挑战在于对象之间的复杂关系、位置、歧义、以及现实环境中的变化等。作为人类,我们可以很轻松地借助各种模态,包括但不仅限于视觉、语言、声音等来理解和感知这个世界。现如今,随着Transformer等关键技术的提出,以往看似独立的各个方向也逐渐紧密地联结到一起,组成了“多模态”的概念。多功能通过引入灵活的提示引擎,包括点、框、涂鸦(scribbles)、掩模、文本和另一幅图像的相关区域,实现多功能性;可组合通过学习联合视觉-语义空间,为视觉和文本提示组合实时查询,实现组合性,如图1所示;可交互通过结合可学习的记忆提示进行交互,实现通过掩模引导的交叉注意力保留对话历史信息;语义感知通过使用文本编码器对文本查询和掩模标签进行编码,实现面向开放词汇分割的语义感知。超大规模视觉通用感知模型由超大规模图像、文本主干网络以及多任务兼容解码网络组成,它基于海量的图像和文本数据构成的大规模数据集进行预训练,用于处理多个不同的图像、图像-文本任务。此外,借助知识迁移技术能够实现业务侧小模型部署。超大规模视觉通用感知模型面临的挑战:(1)网络参数量庞大,通常超十亿参数,训练稳定性、收敛性、过拟合等问题相较于小网络挑战大很多。(2)原始数据集包含数十亿异质低质量图片与海量文本,多步训练以利用异质的多模态多任务数据,流程复杂,存在灾难性遗忘,难以定位精度等问题。(3)实验成本高,通常需要上千块GPU并行训练数周,需要研究者有敏锐的分析能力和扎实的知识基础。(4)工程挑战多,海量数据的吞吐,大型GPU集群上的并行算法,超大参数量模型的内存管理。提示工程大多数视觉数据集由图像和相应文本标签组成,为了利用视觉语言模型处理视觉数据集,一些工作已经利用了基于模版的提示工程,text_descriptions=[f"Thisisaphotoofa{label}"forlabelincifar100.classes]  text_tokens=clip.tokenize(text_descriptions).cuda()除了此类大型视觉语言基础模型外,一些研究工作也致力于开发可以通过视觉输入提示的大型基础模型。例如,最近META推出的SAM能够执行与类别无关的分割,给定图像和视觉提示(如框、点或蒙版),指定要在图像中分割的内容。这样的模型可以轻松适应特定的下游任务,如医学图像分割、视频对象分割、机器人技术和遥感等从模型训练、模型分发、模型商业化,美图体系化地同创作者和开发者共建模型生态:(1)模型训练:提供二次训练能力,并持续不断地为创作者提供服务,包括培训、社区和模型创作大赛。(2)模型分发:创作者和开发者共建的模型可以在美图的产品内进行分发,在分发过程中持续优化模型。(3)模型商业化:行业客户可通过MiracleVision的API和SDK进行商业使用,创作者和开发者通过商业合作获得经济收益。通用视觉-语言学习的基础模型UNITER:结合了生成(例如掩码语言建模和掩码区域建模)和对比(例如图像文本匹配和单词区域对齐)目标的方法,适用于异构的视觉-语言任务。Pixel2Seqv2:将四个核心视觉任务统一为像素到序列的接口,使用编码器-解码器架构进行训练。Vision-Language:使用像BART或T5等预训练的编码器-解码器语言模型来学习不同的计算机视觉任务。模型整体结构上,抛弃了CNN,将BERT原版的Transformer开箱即用地迁移到分类任务上面,在使用大规模训练集的进行训练时,取得了极好的效果。同时,在大规模数据集上预训练好的模型,在迁移到中等数据集或小数据集的分类任务上以后,也能取得比CNN更优的性能。模型整体结构如下图所示,完全使用原始BERT的Transformer结构,主要是对图片转换成类似token的处理,原文引入了一个patch的概念,首先把图像划分为一个个的patch,然后将patch映射成一个embedding,即图中的linearprojection层,将输入转换为类似BERT的输入结构,然后加上positionembedding,这里的position是1D的,最后加上一个learnableclassificationtoken放在序列的前面,classification由MLP完成。这里我们用RAM提取了图像的语义标签,再通过将标签输入到Grounding-DINO中进行开放世界检测,最后再通过将检测作为SAM的提示分割一切。目前视觉基础大模型可以粗略的归为三类:textuallypromptedmodels,e.g.,contrastive,generative,hybrid,andconversational;visuallypromptedmodels,e.g.,SAM,SegGPT;heterogeneousmodalities-basedmodels,e.g.,ImageBind,Valley.CoCa通过将所有标签简单地视为文本,对web-scalealt-text和annotatedimages进行了从头开始端到端的预训练,无缝地统一了表示学习的自然语言监督。因此,CoCa在广泛的下游任务上实现了最先进的性能,零样本传输或最小的任务特定适应,跨越视觉识别(ImageNet,Kinetics-400/600/700,Moments-in-Time)、跨模式检索(MSCOCO、Flickr30K、MSR-VTT)、多模式理解(VQA、SNLI-VE、NLVR2)和图像字幕(MSCOCO、NoCaps)。在ImageNet分类中,CoCa获得了86.3%的zero-shottop-1准确率,frozenencoderandfinetuneclassifier是90.6%,finetuneencoder可以到91.0%。截止目前国内外已经发布了许多包括NLP,CV和多模态在内的大规模模型,但是这些模型在应用落地上还是有待进一步探究的,目前应用落地较好的有华为的盘古,在电网和金融圈都有应用;智源的悟道系列在诗词图文上都有广泛应用,可以帮助学生看图写作,根据文字生成插图等;百度的文心也发布了在金融方面的应用。但截止目前为止大模型在实际中的应用还不是很理想,大模型发展的初衷是使用一个预训练好的大模型代替一堆小作坊似的根据不同任务训练的小模型,通过模型蒸馏知识迁移等技术在小模型上使用少量数据集达到超过原来小模型性能的目标。CV大模型在应用上的一个难点是与实际应用相结合,目前社会中用的较多的视觉相关的深度学习模型主要包括物体检测,人脸识别以及缺陷检测(部分)相比NLP模型在实际中的使用少很多,因此将CV模型与实际生产相结合发现更多的应用场景很关键。另外一个CV大模型应用的难点就是如何快速高效的使用蒸馏和知识迁移技术提升下游任务的性能,这两点难题的解决在CV大模型的实际应用中都刻不容缓。总结起来,将大模型应用于更高分辨率的下游视觉任务具有以下好处:提高感知能力、改善定位精度、提升语义理解、改善细节保留和边缘清晰度、增加鲁棒性和泛化能力,以及推动研究进展。这些好处使得大模型在处理高分辨率图像时能够获得更准确、更细致和更真实的结果。随着深度学习和计算资源的不断发展,我们可以期待更先进的大模型和相关技术的出现,进一步推动计算机视觉在高分辨率图像任务中的应用和突破
  • 所需E币: 0
    时间: 2023-11-15 15:02
    大小: 2.91KB
    从0到1训练自己的大模型,揭密Chat背后的技能与应用,完结11章,源码+PPT下载!那么,什么是大模型呢?大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的基本概念出发,对大模型领域容易混淆的相关概念进行区分,并就大模型的发展历程、特点和分类、泛化与微调进行了详细解读,供大家在了解大模型基本知识的过程中起到一定参考作用。那么,大模型和小模型有什么区别?小模型通常指参数较少、层数较浅的模型,它们具有轻量级、高效率、易于部署等优点,适用于数据量较小、计算资源有限的场景,例如移动端应用、嵌入式设备、物联网等。而当模型的训练数据和参数不断扩大,直到达到一定的临界规模后,其表现出了一些未能预测的、更复杂的能力和特性,模型能够从原始训练数据中自动学习并发现新的、更高层次的特征和模式,这种能力被称为“涌现能力”。而具备涌现能力的机器学习模型就被认为是独立意义上的大模型,这也是其和小模型最大意义上的区别。相比小模型,大模型通常参数较多、层数较深,具有更强的表达能力和更高的准确度,但也需要更多的计算资源和时间来训练和推理,适用于数据量较大、计算资源充足的场景,例如云端计算、高性能计算、人工智能等。基于负采样的softmax计算现在随着GPU计算性能的增加,几万个类别已经不算太大所以现在LM一般不使用这个技巧了。几万类别ok,但几百万、几千万类别呢?人脸识别。为什么现在很难基于人脸去直接识别顾客的基本信息,非得先录入。现在基本都是人脸匹配,只是基于已经有图片进行查找,而不是直接去分类。就是因为真正去分类类别数量太大,如果是全国范围,就是14亿的类别。树型结构的本质是二叉树,在计算机(无论算法还是工程)领域,应用案例随处可见。结构体也是开发中使用频率极高的一种数据类型,本节我们就来看看结构的一些重要知识点。我们先看下面的例子:packagemainimport("log""unsafe")typeStstruct{f1int8f2int16f3int64}typeSt1struct{f1int8f3int64f2int16}funcinit(){log.SetFlags(log.Lshortfile)}funcmain(){st:=St{}st1:=St1{}log.Println(unsafe.Sizeof(st))log.Println(unsafe.Sizeof(st1))log.Println(unsafe.Sizeof(int8(1)))log.Println(unsafe.Sizeof(int16(1)))log.Println(unsafe.Sizeof(int64(1)))}我们可以理解为切片数据的一个快捷方式,其地址跟原始切片是一致的,所以在函数内对切片进行修改会影响到原始切片的值。但是需要注意的是,我们在函数内对切片进行重新赋值会改变函数内实参的数据地址的指向:我们可以通过下面的代码来理解:packagemainimport("log""reflect")funcinit(){log.SetFlags(log.Lshortfile)}funcmain(){//s:=[]int{1,2,3}s:=make([]int,0,6)s=append(s,1,2,3)log.Printf("s:%p",s)assignSlice(s)chageSliceItem(s)log.Println("s:",s)appendSliceItem(s)log.Println("s:",s)//通过反射改变切片的长度reflect.ValueOf(&s).Elem().SetLen(4)log.Println("s:",s)}funcassignSlice(param[]int){log.Printf("assignSliceparam:%p",param)s1:=[]int{1,2,3}//param与函数外的切片s解除引用关系,同时param将指向s1的数据地址param=s1log.Printf("assignSliceparam:%p",param)param[0]=5}//会影响到函数外切片的值funcchageSliceItem(param[]int){param[0]=4}funcappendSliceItem(param[]int){log.Printf("appendSliceItemparamaddr:%pcap:%d",param,cap(param))//发生扩容,指向的数据地址发生了变化(发生了copy),所以不会影响到函数的切片param=append(param,5)log.Printf("appendSliceItemparamaddr:%pcap:%d",param,cap(param))}Jackson开发方法Jackson开发方法是一种面向对象的软件开发方法,它的核心是通过对问题域的分析和描述来构建类图和类之间的关系图。Jackson开发方法强调在开发过程中使用类图和流程图来描述软件系统的结构和行为,并通过使用设计模式和框架来提高代码的可重用性和可维护性。与CMM模型、结构化开发方法和面向对象开发方法相比,Jackson开发方法更注重软件系统的分析和设计,能够更好地描述软件系统的结构和行为。但是,它对需求的分析和描述可能不够全面和详细,需要结合其他方法进行补充和完善。综上所述,CMM模型、结构化开发方法和面向对象开发方法各有其优缺点,需要根据具体的项目需求和情况进行选择。UML是标准的建模语言,可以用于各种软件开发方法的建模。Jackson开发方法是面向对象的软件开发方法的一种,与其他方法可以相互补充和完善。大模型开发工具与开源社区,Colossal-AI再次迭代,提供开箱即用的8到512卡LLaMA2训练、微调、推理方案,对700亿参数训练加速195%,并提供一站式云平台解决方案,极大降低大模型开发和落地应用成本。
  • 所需E币: 0
    时间: 2023-7-29 08:52
    大小: 1.21KB
    上传者: 开心就很好了
    AIGC与NLP大模型实战-经典CV与NLP大模型及其下游应用任务实现视频教程下载,视频+源码+课件!AIGC全称AI-GeneratedContent,指基于人工智能通过已有数据寻找规律,并自动生成内容的生产方式。AIGC既是一种内容分类方式,也是一种内容生产方式,还是一种用于内容自动生成的一类技术集合。NLP是目前世界上最实用有效的一门心理行为科学。NLP全名是NeuroLinguisticProgramming,中文译为【神经语言程序学】。大模型又可以称为FoundationModel(基石)模型,模型通过亿级的语料或者图像进行知识抽取,学习进而生产了亿级参数的大模型。其实感觉就是自监督学习,利用大量无标签很便宜的数据去做预训练。AIGC是目前自然语言处理和计算机视觉领域的前沿技术之一。它可以被用于很多应用场景,比如:1、在商业领域,可以帮助企业进行智能客服、舆情监测、自然语言处理等方面的工作;2、在教育领域,它可以辅助学生写作、阅读理解、语言学习等方面的任务;3、在医疗领域,它可以帮助医生进行医学文献智能分析、病历自动填写等工作;4、在游戏领域,它可以用于游戏中的角色设计、场景设计和动画制作等方面,便于游戏开发者更为快速、更准确地创造出高质量的游戏素材,提高游戏的制作效率和品质。
  • 所需E币: 0
    时间: 2023-7-29 09:51
    大小: 1.48KB
    当今社会是科技的社会,是算力快速发展的时代。随着数据中心、东数西算、高性能计算、数据分析、数据挖掘的快速发展,大模型得到了快速地发展。大模型是“大算力+强算法”相结合的产物,是人工智能的发展趋势和未来。目前,大规模的生态已初具规模。其可以实现从“手工作坊”到“工厂模式”的AI转型。大模型通常在大规模无标记数据上进行训练,以学习某种特征和规则。基于大模型开发应用时,可以对大模型进行微调,或者不进行微调,就可以完成多个应用场景的任务;更重要的是,大模型具有自监督学习能力,不需要或很少需要人工标注数据进行训练,降低训练成本,从而可以加快AI产业化进程,降低AI应用门槛。NLP大模型是被认为最接近人类中文理解能力的AI大模型,而CV大模型首次兼顾了图像判别与生成能力。未来的方向1.进一步扩大模型规模,改善模型架构和训练改善模型的架构或者训练过程可能会带来具有涌现能力的高质量模型,并减少计算量。一种方向是使用稀疏混合专家架构,其在保持恒定输入成本时具有更好的计算效率,使用更加局部的学习策略,而不是在神经网络的所有权重上进行反向传播,以及使用外部存储来增强模型。2.扩大数据规模在一个足够大的数据集上训练足够长的时间被证明是语言模型获得语法、语义和其他世界知识的关键。近期,Hoffmannetal.认为先前的工作低估了训练一个最优模型的训练数据量,低估了训练数据的重要性。收集模型可以在其上训练更长时间的大量数据,允许在一个固定模型尺寸的约束下有更大范围的涌现能力。3.更好的prompt虽然few-shotprompting简单有效,对prompting通用性的改善将进一步扩展语言模型的能力。
  • 所需E币: 0
    时间: 2023-7-25 15:34
    大小: 1.39KB
    上传者: 蝴蝶结欧恩
    分享一套课程——AIGC与NLP大模型实战-经典CV与NLP大模型及其下游应用任务实现,附源码+课件。本章节以当下最流行大模型技术为核心,通俗讲解CV与NLP任务中的经典大模型及其实现方法,详细解读其论文思想与应用场景,并结合实例进行项目实战。所选内容全部基于当下主流算法及其源码实现,覆盖CV与NLP核心应用场景与落地方案。AIGC全称为AIGeneratedContent,即人工智能生产的内容,认为是继PGC、UGC之后的新型内容创作方式。在技术上,AIGC能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求。在市场需求上,由于Web3.0时代的到来,人工智能、关联数据和语义网络构建了形成全新格局,相关消费需求高速增长。传统的UGC\PGC内容生成方式将落后于现有需求,而AIGC技术的将成为新的内容生产方式,更被认为是元宇宙和web3.0的底层基础设施之一。
  • 所需E币: 1
    时间: 2023-7-11 17:29
    大小: 452.62KB
    上传者: 张红川
    03四种IO模型.pdf
  • 所需E币: 0
    时间: 2023-6-29 08:59
    大小: 1.46MB
    上传者: 张红川
    【09】点云模型.pdf
  • 所需E币: 0
    时间: 2023-6-29 08:58
    大小: 1.01MB
    上传者: 张红川
    【07】相机模型.pdf
  • 所需E币: 1
    时间: 2023-6-14 13:11
    大小: 301.46KB
    上传者: 张红川
    放大器--小信号模型.pdf
  • 所需E币: 1
    时间: 2023-5-9 15:18
    大小: 15.01MB
    可解释的机器学习:黑盒模型可解释性理解指南-[美]ChristophMolnar
  • 所需E币: 1
    时间: 2023-5-6 12:08
    大小: 228.93MB
    深度学习:Caffe之经典模型详解与实战-乐毅-王斌