根据普渡大学的一项研究,OpenAI 的聊天机器人 ChatGPT 在超过一半的时间里对软件编程问题给出了错误的答案。 也就是说,该机器人的说服力足以欺骗三分之一的参与者。
普渡大学团队分析了 ChatGPT 对 517 个 Stack Overflow 问题的回答,以评估 ChatGPT 答案的正确性、一致性、全面性和简洁性。 美国学者还对答案进行了语言和情感分析,并对十几名志愿者参与者询问了模型生成的结果。 “我们的分析表明,52% 的 ChatGPT 答案是错误的,77% 的答案是冗长的,”该团队的论文总结道。 “尽管如此,由于其全面性和清晰的语言风格,ChatGPT 答案在 39.34% 的情况下仍然受到青睐。” 在首选的 ChatGPT 答案集中,77% 是错误的......
他们的论文指出:“在我们的研究过程中,我们观察到,只有当 ChatGPT 答案中的错误很明显时,用户才能识别出错误。” “但是,当错误不易验证或需要外部 IDE 或文档时,用户通常无法识别错误或低估答案中的错误程度。” 该论文指出,即使答案存在明显错误,12 名参与者中仍有两人仍将首选答案标记为首选。 论文将此归因于 ChatGPT 令人愉快、权威的风格。
该论文解释说:“从半结构化访谈中可以明显看出,礼貌的语言、清晰的教科书风格的答案、全面性和答案的关联性使得完全错误的答案看起来是正确的。”