大语言模型(LLM)在日常生活中已经被广泛应用于创意写作、问题回答等任务。然而,在金融、法律等对准确性要求较高的领域,LLM生成的内容可能会出现错误,这些错误需要被及时识别和处理。因此,评估大语言模型在具体任务中的提示词效果显得尤为重要。

本文将简要介绍如何评估大语言模型在特定任务中的提示词效果,并开展了三个案例测试:

在提示词中添加“一步一步思考”的效果。

识别大模型总结内容时的信息损失。

测试大模型生成事实性内容时的准确度。

每个案例均使用LLM进行了5次生成,仅用于初步展示评估思路。在实际应用中,针对具体应用场景开发专门的测试集是必要的。对于更复杂的LLM应用,评估可能需要记录日志和进行A/B测试,但本文将不涉及这些内容,亦未讨论LLM使用工具和多条提示词组合的情况。

在评估具体任务的提示词时,我们需要注意大语言模型生成的幻觉内容主要有两种类型:

  • 生成的内容与上下文或常识冲突
  • 未按指令要求生成内容,难以鉴别真实性

无论哪种,都可能会对下游工作带来负面效果。评估大语言模型提示词的重要性在于,尽管目前已有许多大模型产品和评测框架,但当某些任务难以完成时,我们需要区分是模型推理能力不足,还是提示词设计不佳。现有评测通常侧重于大模型在不同类别任务上的表现,如编程和指令遵循,但这些评分无法真正反映模型在具体任务上的可靠性,尤其是当用户希望通过一个或一组提示词处理大量数据或开发和部署大语言模型应用时。基于任务的评估还可以纳入提示词和大模型配置的优化迭代中,持续提高模型的实际应用效果。两类自动评估方式在评估大语言模型时,有两种自动评估方式:代码验证和模型评分(Model Grading)。代码验证适用于结果明确的内容,尤其是计算题和事实性信息,例如“中国的首都是哪里?” 模型评分则是让LLM自己进行评估,也可以再结合代码验证。可以组合使用不同模型,例如使用GPT-4评估GPT-3.5的生成内容。此外,LLM可以根据给定的指导原则或评分标准进行评估,以提高评估的全面性和准确性。

案例1:在提示词中加入“一步一步推理”的效果

“请一步一步思考”是一个常见的提示词技巧。本案例分别以无“一步一步推理”和加入“一步一步推理”后的提示词要求LLM(GPT-3.5)解决简单的财务计算问题,并将答案以代码形式与正确答案进行对比(属于正确答案的子集即代表正确)。结果发现,前者的正确率60%,而后者的正确率为100%。

提示词中无“一步一步推理”:

指示

数据

正确答案集

LLM生成内容

评估结果

你是一位财务专家。请解答用户输入的问题。请勿使用任何工具,最多保留两位小数。请回答尽可能简洁。

黄明在一家金融科技公司投资了100,000元人民币,该公司承诺的年化回报率为8%,利息按年复利计算。如果黄明一年后取回他的投资,不计入任何其他费用和税收,他的最终回收金额是多少?

["108,000",
"108000"]

黄明一年后的最终回收金额是108,000元人民币。

正确

你是一位财务专家。请解答用户输入的问题。请勿使用任何工具,最多保留两位小数。请回答尽可能简洁。

刘璐投资了200,000元人民币在一个年化回报率为3%的企业债券中,利息按年复利计算。如果刘璐在两年后提取她的投资,不考虑其他任何费用和税收,她将回收多少金额?

["212,180",
"212180"]

刘璐将在两年后回收220060元人民币。

错误

你是一位财务专家。请解答用户输入的问题。请勿使用任何工具,最多保留两位小数。请回答尽可能简洁。

陈刚向一家私募股权基金投资了500,000元人民币,该基金承诺年化回报率为12%,利息按年复利计算。如果陈刚在一年后结束他的投资,不计入其他任何费用和税收,他的最终收回金额将是多少?

["560,000",
"560000"]

陈刚最终收回金额为560,000元人民币。

正确

你是一位财务专家。请解答用户输入的问题。请勿使用任何工具,最多保留两位小数。请回答尽可能简洁。

周莹在一家创业公司投资了80,000元人民币,该公司承诺年化回报率为10%,利息按年复利计算。如果周莹在一年后取回她的投资,不包括其他费用和税收,她的最终收回金额是多少?

["88,000",
"88000"]

周莹最终收回金额为88,000元人民币。

正确

你是一位财务专家。请解答用户输入的问题。请勿使用任何工具,最多保留两位小数。请回答尽可能简洁。

王伟在一个固定收益基金中投资了300,000元人民币,该基金的年化回报率为6%,利息按年复利计算。如果王伟在三年后提取他的投资,不考虑税费和其他费用,他的总回收金额将是多少?

["357,305",
"357,304",
"357305",
"357304",
"357304.8"]

王伟三年后的总回收金额将会是353,712元人民币。

错误

提示词中有“一步一步推理”:

指示

数据

正确答案集

LLM生成内容

评估结果

你是一位财务专家。请解答用户输入的问题。请勿使用任何工具,最多保留两位小数。请首先一步一步推理如何解决问题,然后再得出最终答案

黄明在一家金融科技公司投资了100,000元人民币,该公司承诺的年化回报率为8%,利息按年复利计算。如果黄明一年后取回他的投资,不计入任何其他费用和税收,他的最终回收金额是多少?

["108,000",
"108000"]

根据题目所述,黄明投资了100,000元人民币,并且年化回报率为8%。因此,一年后他的投资金额将增加8%。计算一年后的投资金额:100,000 * (1 + 0.08) = 100,000 * 1.08 = 108,000 元所以,黄明一年后将取回108,000元。

正确

你是一位财务专家。请解答用户输入的问题。请勿使用任何工具,最多保留两位小数。请首先一步一步推理如何解决问题,然后再得出最终答案

刘璐投资了200,000元人民币在一个年化回报率为3%的企业债券中,利息按年复利计算。如果刘璐在两年后提取她的投资,不考虑其他任何费用和税收,她将回收多少金额?

["212,180",
"212180"]

首先,根据问题中给出的信息,我们知道刘璐投资200,000元人民币在一个年化回报率为3%的企业债券中,利息按年复利计算。第一年末,刘璐将获得的利息为:200,000元 * 3% = 6,000元第二年末,刘璐将获得的利息为:(200,000元 + 6,000元) * 3% = 6,180元所以,两年后,刘璐将回收的总金额为:200,000元 + 6,000元 + 6,180元 = 212,180元因此,两年后刘璐将回收212,180元。

正确

你是一位财务专家。请解答用户输入的问题。请勿使用任何工具,最多保留两位小数。请首先一步一步推理如何解决问题,然后再得出最终答案

陈刚向一家私募股权基金投资了500,000元人民币,该基金承诺年化回报率为12%,利息按年复利计算。如果陈刚在一年后结束他的投资,不计入其他任何费用和税收,他的最终收回金额将是多少?

["560,000",
"560000"]

首先,我们需要计算一年后的投资总额。根据题目,年化回报率为12%,即年利率为12%。投资总额 = 初始投资金额 * (1 + 年利率)投资总额 = 500,000元 * (1 + 0.12)投资总额 = 500,000元 * 1.12投资总额 = 560,000元一年后,陈刚的投资总额为560,000元。所以,陈刚在一年后结束他的投资,最终收回金额将是560,000元。

正确

你是一位财务专家。请解答用户输入的问题。请勿使用任何工具,最多保留两位小数。请首先一步一步推理如何解决问题,然后再得出最终答案

周莹在一家创业公司投资了80,000元人民币,该公司承诺年化回报率为10%,利息按年复利计算。如果周莹在一年后取回她的投资,不包括其他费用和税收,她的最终收回金额是多少?

["88,000",
"88000"]

首先,我们需要计算一年后周莹的投资增长的金额。根据年化回报率为10%,80,000元将增长10%。增长金额 = 80,000 * 10% = 8,000元所以,一年后周莹的投资总额为 80,000 + 8,000 = 88,000元。因此,周莹在一年后取回她的投资时,她最终收回的金额是 88,000元。

正确

你是一位财务专家。请解答用户输入的问题。请勿使用任何工具,最多保留两位小数。请首先一步一步推理如何解决问题,然后再得出最终答案

王伟在一个固定收益基金中投资了300,000元人民币,该基金的年化回报率为6%,利息按年复利计算。如果王伟在三年后提取他的投资,不考虑税费和其他费用,他的总回收金额将是多少?

["357,305",
"357,304",
"357305",
"357304",
"357304.8"]

首先,我们计算一下王伟三年后的总回收金额。由于利息每年复利,所以我们可以使用复利计算的公式:总回收金额 = 本金 * (1 + 年化回报率)^投资年限代入数值计算:总回收金额 = 300,000 * (1 + 0.06)^3总回收金额 = 300,000 * (1.06)^3总回收金额 = 300,000 * 1.191016总回收金额 ≈ 357,304.80 元因此,王伟三年后的总回收金额将约为 357,304.80 元。

正确

案例2:识别大模型总结内容时的信息损失

使用LLM来总结长文本是一项常见的场景。但对于高信息密度的文本,如企业财报、论文等,LLM在总结时不可避免地会“放弃”一些重要信息,而这些信息可能就是我们感兴趣的信息。在本案例中,我们使用LLM来总结一段企业年报中管理层评论文本,约3700字中文。我们要求LLM将该段文本压缩为不超过350字,并以最终生成内容是否提及“数字化转型”和“客户集中风险”为评判标准(这两项内容也是该文本核心内容),提及为“是”,未提及为“否”。本案例由GPT-4生成内容,并由GPT-4评估内容,最终发现5次测试中仅3次覆盖了这两项关键点。

要避免此类信息损失,首先需要在设计总结提示词时加入关于我们个人兴趣的信息,这样LLM才可以真正的为“我们”总结。其次,由于文本性信息不如数值型信息那么明确,提示词还应明确如何语意中模糊的边界地带。如果缺乏统一的标准,那么就有更高的概率出现相同提示词相同数据生成不同结果的情况。这些边界地带应区分不同概念、实体的关系范畴,例如子集(Subset)、超集(Superset)、交集(Intersection)、差集(Difference)等。

本案例提示词:

用户将发来一家上市企业年报内容的节选,请总结该段文本,不超过100字。 + {某上市企业2023年年报部分内容,约3700字}

评估标准:

总结中是否明确提及了数字化转型和客户集中风险?(是/否)

示例标准总结:

公司位于快速发展的生成式AI行业,预计全球市场规模将显著增长。作为行业领军企业,公司采取前瞻性的全球化战略,深耕中国市场的同时,拓展国际业务,推动AI技术在智能制造、数字化转型等领域的应用。面对宏观经济波动、行业技术迭代、汇率和原材料价格波动等风险,公司依靠先进的技术和产品,强化全球产能布局和客户合作,以及优化供应链和数据治理,致力于持续增长并推动可持续发展。

LLM生成内容

LLM评估推理过程

公司年报讨论了生成式AI的行业趋势,指出北美云服务商主导市场,同时新兴企业和传统企业也在积极布局。预计全球生成式AI市场将显著增长。公司战略上,继续深耕中国市场并扩展全球布局,加强AI和数据处理的研发,推动数字化转型和智能制造。同时,公司强调可持续发展和ESG原则,应对宏观经济波动、行业变化、汇率波动等风险,并优化客户和供应链管理以稳定运营。

1. The criterion requires the summary to specifically mention "digital transformation" and "customer concentration risk."

2. Reviewing the submission, it states that the company is "pushing digital transformation and smart manufacturing" which directly refers to "digital transformation."

3. The submission also mentions "optimizing customer and supply chain management to stabilize operations." This part indirectly addresses the risk associated with customer concentration by discussing the management and optimization of customer relationships, which is a strategy to mitigate risks arising from having a concentrated customer base.

4. Therefore, the submission does mention both "digital transformation" and "customer concentration risk," albeit the latter in a less direct manner.

该上市企业的年报节选主要讨论了公司在生成式AI领域的发展机遇和战略。报告指出,随着AI技术的快速发展,全球生成式AI市场预计将显著增长。公司积极布局全球市场,增强AI技术应用,并推动数字化转型。同时,公司也面临宏观经济波动、行业竞争、汇率变动、客户集中度高和原材料价格波动等风险。公司通过持续的技术创新和全球化战略,以及优化供应链和客户结构,来应对这些挑战和风险。

1. The criterion requires the summary to specifically mention "digital transformation" and "risk of customer concentration."

2. The term "digital transformation" is referred to in the submission as "数字化转型," which is mentioned in the context of the company promoting digital transformation.

3. The term "risk of customer concentration" is referred to in the submission as "客户集中度高," which is mentioned as one of the risks the company faces.

4. Both required elements, "digital transformation" and "risk of customer concentration," are explicitly mentioned in the submission.

5. Therefore, the submission meets the criterion as it includes both specified elements.

公司年报讨论了生成式AI技术的快速发展及其对行业的影响,指出北美云服务商如谷歌、微软、亚马逊在市场中占主导地位。报告提到中国在AI技术研发方面取得进展,预计全球生成式AI市场将显著增长。公司战略方面,强调深耕中国与全球布局,推动AI技术在智能制造等领域的应用,并关注可持续发展。经营计划包括加强全球产能布局和技术创新,同时注意宏观经济、行业波动、汇率、客户集中度和原材料价格等风险。

1. The criterion requires the summary to specifically mention "digital transformation" and "customer concentration risk."

2. The term "digital transformation" is generally associated with the application of digital technology in all aspects of human society. It can also refer to the "digitalization" of business operations and processes.

3. In the submission, the term "digital transformation" is not explicitly mentioned. However, there is a mention of "pushing AI technology in areas such as smart manufacturing," which could be related to digital transformation. Yet, the criterion asks for an explicit mention, which is not present.

4. The term "customer concentration risk" refers to the risk associated with relying heavily on a small number of customers for a significant portion of the company's revenue. This risk is explicitly mentioned in the submission as "attention to... customer concentration and raw material price risks."

5. Therefore, the submission explicitly mentions "customer concentration risk" but does not explicitly mention "digital transformation."

6. Based on the criterion's requirement for both terms to be explicitly mentioned, and given that only one of the two terms ("customer concentration risk") is clearly addressed, the submission does not fully meet the criterion.

该上市公司的年报节选主要讨论了公司在生成式AI领域的发展机遇和挑战。报告指出,随着AI技术的快速发展,全球生成式AI市场预计将显著增长。公司通过增强全球布局和资本支出,特别是在AI领域的投资,以应对技术和市场的变化。此外,公司还强调了持续的技术创新和全球化战略对于维持竞争优势的重要性,并提出了面对宏观经济波动、行业波动、汇率波动、客户集中度和原材料价格波动等潜在风险的策略。

1. The criterion requires the summary to specifically mention "digital transformation" and "customer concentration risk."

2. Reviewing the submission, it mentions various aspects of the company's strategy and challenges related to the development in the generative AI sector, global market growth expectations, and investment in AI.

3. The submission also discusses the company's emphasis on continuous technological innovation and a global strategy to maintain a competitive edge.

4. The submission outlines strategies to face potential risks such as macroeconomic fluctuations, industry volatility, exchange rate fluctuations, customer concentration, and raw material price volatility.

5. The term "digital transformation" is not explicitly mentioned in the submission. However, the submission does discuss technological innovation and global strategy, which could be related but are not specifically termed as "digital transformation."

6. The term "customer concentration risk" is explicitly mentioned in the submission as one of the potential risks the company faces.

7. Since the criterion specifically asks for both "digital transformation" and "customer concentration risk" to be mentioned, and only "customer concentration risk" is clearly addressed, the criterion is not fully met.

公司年报讨论了生成式AI技术的快速发展及其在多个行业中的应用,预测全球市场规模将显著增长。公司制定了以AI为核心的发展战略,加强全球布局和数字化转型,同时推进可持续发展和ESG实践。面对宏观经济波动、行业变化、汇率风险、客户集中度高和原材料价格波动等风险,公司计划通过技术创新、全球市场拓展和供应链优化来增强竞争力和市场地位。

1. The criterion requires the summary to specifically mention "digital transformation" and "customer concentration risk."

2. The term "digital transformation" is referred to in the submission as "数字化转型." The submission states that the company is strengthening its "global layout and digital transformation," which directly addresses the digital transformation aspect of the criterion.

3. The term "customer concentration risk" is referred to in the submission as "客户集中度高." The submission mentions that facing risks such as "high customer concentration," the company plans to enhance its competitiveness and market position through various strategies. This directly addresses the customer concentration risk aspect of the criterion.

4. Both required elements, "digital transformation" and "customer concentration risk," are clearly mentioned in the submission.

Therefore, the submission meets the criterion as it explicitly mentions both required elements

案例3 - 事实性内容生成的准确度

在案例3中,我们将一篇约3500字的关于獐子岛造假事件的媒体报道发送给大模型,要求大模型梳理造假事件的时间脉络。该报道包含了大量事实性信息,如日期、财务数据、判决结果等。结果发现,当有大量细节性信息时,LLM可能混淆细节中一些比较微妙的地方。此类场景值得专门设计提示词和工作流。

本案例提示词:

用户将发来一篇关于某事件的媒体报道文章,请你基于该文章撰写一篇事件概要。概要应以时间线形式介绍事件的事实性关键内容。概要包括标题和正文,正文不超过350字。+ {媒体报道文章}

部分生成内容(划线为错误部分):

...2014年:獐子岛公告称因“冷水团”导致扇贝大量死亡,公司巨亏11.95亿元。同年,居民实名举报称“冷水团事件”为虚假陈述。...

实际上,在该媒体报道中,居民是在2016年举报2014年的造假行为,而非同年举报。

通过以上案例分析,我们可以更好地理解和评估大语言模型在具体任务中的表现。不断优化和调整提示词,使模型输出更加准确和可靠,是实现大语言模型高效应用的关键。无论是在创意写作还是在高精度要求的领域,评估提示词效果都能帮助我们提高模型的实用性和可靠性。