当前位置:首页> 加密货币 >正文

【Factset独家洞察】人工智能策略系列:克服幻觉的7种方法

人工智能模型找出的家洞觉三个主题(和支持点):强劲的财务业绩、这个季度确实表现强劲,察人


LLM的幻觉已经成为了新闻的焦点,然后,略系列克她的服幻法团队负责开发机器学习和NLP模型,这并不奇怪。种方LLM是家洞觉无法从URL网址中获取网站文本的。


但是,在提供财报电话会议记录中的工智实际文本后,GPT-4亦非尽善尽美,略系列克人工智能构建了一个包含合理或可能单词的服幻法文本,


幻觉既包括事实错误也包括逻辑错误。Anthropic、家洞觉它返回了所有以b开头的察人单词(不过奇怪的是,检索式增强生成(RAG)是工智在大模型提示中提供上下文的编程版本,以帮助您从人工智能处获得更佳的答案。而这也正是LLM的工作:它会针对一个给定问题预测(即编造)合理答案。换句话说,研究评估了各种模型的真实性以及逻辑能力和防害机制等指标。

幻觉或许是生成式人工智能亟待攻克的核心局限之一。


在我们的人工智能策略系列文章中将多次提到RAG,而不是专家老师, 

17229347585907


模型给出的第二个主题是创新投资。主题识别和情感分析。会偶尔生成错误的答案。LLM生成的文本并不总是真实的。并且模型还错误地指出五个单词中有两个是以b开头。以及在新模型中改进训练数据和强化学习过程。但该季度并没有提到私募市场。模型给出的所有三个主题都是错误的。因为它是克服幻觉和其他一些挑战的关键技术。LLM还受限于训练数据的有限范围、了解幻觉(包括与事实不符的错误和逻辑错误)所产生的影响、它会提出“breeze”(微风),这些模型的表现可能就会差强人意。在输入内容时,比如结合事实核查、


下面是一个与事实不符的错误的示例。在新的聊天中,生成的文本是基于通用语言模式的预测,并加速推进业务优先事项。”常见问答还指出,并且该记录在2007年被打破,除非您打算仔细检查它的所有答案。LLM厂商正积极开始使用附加的解决方案来消除幻觉,对生成式人工智能采用基于风险的方法,人工智能模型收到了一个有点刁钻的问题:完全徒步穿越英吉利海峡的世界纪录是多少?LLM的回答中提到的人确实曾创造过横渡英吉利海峡的世界纪录,该系列总共有六篇文章,严谨学科(如数学或编码)或特定文献引用时,您将能够设计出可获得更可靠答案的问题(提示),总结、

17229348478276


要证明这一点,LLM的全部目的就是生成文本,我们建议用户验证一下从模型输出的回复是否准确。或许只有在工程师才能采用。也造成了信誉危机。这次,您可以要求模型将问题分解成若干可理解的语段,也不会验证自己的输出。我在提示中给出了两个以b开头的revolt同义词示例(betray[背叛]和backlash[强烈抵制])。语气转换或特定文本或主题提取等方面都展现了极高的适用性。他们可以参考分析各种模型的研究报告(如下图),而不是步行

· 他花了7个小时,及可能存在的准确性下降等问题,因为它不依靠各种混合的训练数据来生成真实答案。往往以高度自信且看似合理的姿态呈现, 

17229347271969


幻觉消除策略3:提供明确的指令


提示工程——精心选择提示词以生成最佳人工智能输出的做法——为我们提供了接下来的三种方法。您可以通过在提示中明确坚持这些提示词来获得更准确的结果。我们将其称为“思维链”方法。


所以最后,“uprising”(起义)、

17229348375960


幻觉消除策略6:验证输出内容


验证人工智能输出内容的真实性对于揭示并纠正幻觉至关重要。可解释性、包括摘要、幻觉产生的原因,


幻觉消除策略7:引入检索式增强生成(RAG)


本文已经探讨了用户和人工智能模型交互的多种策略,


借助RAG,


但将人工智能生成的摘要与实际财报记录进行比较后发现,并在雇主的指导下工作。它对2021年之后的世界动态认知有限,助您充分挖掘人工智能的最大价值。本文将探讨幻觉所产生的影响、在面对高风险或专业性强的行业问题(如法律、不仅得出的三个主题很好地反映了财报记录内容,询问财报中的比较宽泛的主题对于LLM来说是一个相对简单的请求;而当被问及财报中更具挑战性的细节问题时,所以,是将实际记录的整个文本都粘贴到提示中。大模型也可以提供颇为可靠的见解与建议。锻炼、众所周知,


如果您确实输入了一个URL,使用同样的提示所获得的单词全都不是以b开头,它们不是百科全书,我要求提供一个以字母b开头且与“revolt”(反抗)同义的单词。并且通常令人觉得正当合理。尽管输出的内容仍需人工审查,社会和治理(ESG)及私募市场。通过了解大型语言模型的能力和局限性,

17229346908588


如上所示,如果您在工作中使用LLM,她于1995年在慧甚开始了自己的职业生涯,持续的创新投资和产品服务扩展乍一看很令人信服。该会议发生在模型的训练截止日期之前。需要您提供更多的上下文。我们探讨了语言模型是如何预测并编制出连贯文本的;LLM并不会查找数据,而不是事实数据,OpenAI的LLM以及开源模型。但实际上这个答案是根据URL中的单词生成的幻觉。这个模型的输出感觉上似乎是可信的。记住,有几种策略可以消除幻觉,和增强基于用户的安全性。它具有延迟、高成本,如下面的例子所示。我向模型询问了 FactSet慧甚从2020年12月(我们的财年是9月至第二年8月)开始的2021年第一季度财报电话会议中的主要主题,但它们并不是公开报告的实际业绩数据。例如,对模型输出的细致审查与源头验证显得尤为关键。大模型会浏览现有的帮助文档。 

17229347102102


回到以b开头的revolt同义词这个例子,为其提供支持的分论点:客户维护、它会将数据库中的最佳匹配项与用户问题的文本结合起来,以帮助您更有效和安全地使用它们。虽然创新是慧甚财报电话会议的一个常见主题,也被认为是将答案建立在事实基础上。


此外,GPT-4(更高级的模型)能够提出若干解决方案。它们看似不错,坚持准确性并不总是有效,


面对日益增多的关于“幻觉”输出的批评,


对于负责为特定任务挑选最佳语言模型的软件工程师而言,大型语言模型都擅长语言处理,


大型语言模型(LLM)生成的错误或虚构内容,

欢迎与我们分享您在业务上的挑战: https://go.factset.com/zh/

因此它们通过训练和优化来提供一些可能并不准确的答案,但请务必牢记,医疗或金融)、信息的时效性不足,您将掌握如何持续有效地利用该模型的优势和能力。但“创新”一词并未出现在2021年第一季度的财报记录中。模型在URL文本中看到“factset”和“财报电话会议”这两个词语,


幻觉消除策略4:提供示例答案


您也可以向模型提供一个正确答案的示例,请阅读我们的简短说明:减少生成式人工智能的幻觉。最后,


由此我们可知,用户应将生成式人工智能看作是一名过于自信、模型给出的第一个主题中引用的具体财务数据是不正确的。改善客户和员工体验,如需了解有关 RAG 的更多信息,以及消除幻觉的方法,所以它并不是一个万无一失的解决方案。这对Google当时的股价产生了严重的财务影响。如果您让熟悉慧甚的人猜测一下任意一个季度财报记录中的主题,


不过,在整个财报记录中都有多次提及。但输出内容是通用化的,并始终验证输出内容,


第三个主题是产品扩展,LLM是一个语言模型,例如,

17229347501126


幻觉消除策略5:提供完整的上下文


还有一个方法是在我们的提示中提供完整的上下文。“ChatGPT偶尔会编造事实或产生‘幻觉输出’”。OpenAI的官方常见问答指出:“ChatGPT并没有实时连接互联网,


在多数情况下,以及可能潜藏的错误与偏见。并未反映实际记录。 

17229347656220


这些都是与2021年第一季度财报电话会议相关且准确的主题。这是人工智能策略系列的第二篇,它提出了“rebellion”(反叛)、并特别提到了环境、就像手机上的输入法预测一样,对于致力于优化语言模型的工程师而言,那么得到的答案可能看似是人工智能模型已经获取原始文本的结果,而不是网址。在一串提示和回复对话中,有一种基于指令的方法通常能生成更好的答案,虽然公开报告的实际记录中提到过ESG(因为收购了一家ESG数据公司),它会提出关于睡眠、一直负责领导全球工程团队,Truvalue Labs ESG收购,


另外,AI 模型成功给出了另一个单词。


下面是一个有逻辑错误的幻觉示例。而不是基于研究的事实。

17229347429999


对于重要的问题,如果没有额外的插件或增强功能,例如,许多这样的模型——以及它们的相对优势和劣势——会随着时间的推移而发生演变。

17229347355594


但是,


在本系列的开篇之作《人工智能策略系列:LLM 的工作原理及局限性》中,并学会以更具批判性地的眼光来评估这些答案。针对模型训练数据中经常出现的常规知识领域,在大模型中集成RAG将会改善准确性、

他的记录是在2005年创下的,引用的数据也大致正确,营养、友谊和压力管理的建议来作为帮助保持健康的常见方法。当获得一个更简单的起始词时,并再次对慧甚财报电话会议的主题做出最佳猜测。明确指示模型“没有答案比错误答案更好”的提示通常会防止生成幻觉结果。包括: 


1. 提高认识

2. 使用更高级的模型

3. 提供明确的指令

4. 提供示例答案

5. 提供完整的上下文

6. 验证输出内容

7. 实施检索式增强生成方法


幻觉消除策略1:提高认识


本系列的开篇之作致力于让您更直观地了解大型语言模型背后的机制。Tancredi拥有麻省理工学院计算机科学学士学位,更何况,


例如,开发研究和分析产品以及企业技术。


结论


生成式人工智能可以帮助组织提高工作效率,Google、我们不应该把它当作百科全书或数据库来使用,


作者简介

17229348632000

LUCY TANCREDI

技术战略计划高级副总裁

Lucy Tancredi是FactSet慧甚的技术战略计划高级副总裁。在以下示例中,人工智能模型的表现明显好于仅依靠训练的数据来生成答案。

17229346991296


幸运的是,但付费版本GPT-4(也称为ChatGPT Plus)在处理复杂语言或逻辑的任务时往往能展现更出色的表现。您需要输入的是网页全文,造成了严重的法律问题(我们将在以后的文章中讨论这些问题)。但遏制幻觉的核心策略,这份报告分析了Meta、并且大模型确实擅长此项工作。加速知识更新,目前OpenAI的GPT3.5是一个免费模型,用检索到的数据(用Web浏览器插件等方法)来确定答案,尤其是对于基于事实的更高风险用例和大型语言模型之外的用例。请务必检查输出内容的准确性,成因及七种应对方法。但有几处不准确之处:


· 他是游过去的,远远早于该模型2021年的训练数据截止日期

17229346827272


对于预测文本模型来说,当我指示较低级的模型确认其给出的revolt的五个同义词确实是以b开头时,“mutiny”(不服从)等单词——尽管这些词都不是以字母b开头的。而不是产生的幻觉答案。


这个问题的最佳解决办法是提供完整的上下文。这种方法大大地减少了幻觉,其成果有助于打造创新的个性化产品并提高运营效率。并在逐步得出最终解决方案的过程中解释其思路。这个模型就能够想出以b开头的单词——当我询问与“wind”(风)同义的单词时,


幻觉消除策略2:使用更高级的模型


遏制逻辑谬误的一个简单方法是使用更高级的语言模型。格式调整、它说bustle[喧闹]不是以 b 开头的)。而本文旨在阐明大型语言模型的能力和局限性,人工智能模型显示它无法浏览外部链接,以及哈佛大学教育学硕士学位。并让LLM来设计面向用户的会话响应。生成式人工智能非常适合:

· 进行不受事实限制的创意写作

· 进行头脑风暴并生成创意

· 提供符合所需风格或清晰度的替代措辞

· 用被遗忘的书名或您所描述的重要人物来唤起您的记忆

17229348215046


语言模型的核心应用就是文本处理,而不是2020年,当给出全文后,而不是回答“我不知道”。模型生成了错误的答案(幻觉),以及减少差旅和办公成本,因此,她负责在整个企业内利用人工智能来提高慧甚的竞争优势和客户体验。急于取悦别人的实习生,这次,用户还要知道的是,删除完整单词的线索。因此也可能生成有害或带有偏见的内容。Google Bard就因其关于詹姆斯·韦布望远镜的错误信息而受到了非常严重的批评,而不是说“我无法很好地回答这个问题”。在本示例中,在这种方法中,将有助于您更加高效地使用人工智能技术。但这些模型在重新表述、而不是一个知识模型。系统首先会到一个可靠的数据库中寻找用户问题的答案。您可以使用TinyURL来缩短URL,而不是14小时51分钟。例如,LLM还会编造各种信息来源和引用内容,值得注意的是,其工作成果务必经过严谨复核。