个性化的生成型AI内容在金融领域中可能比在伦理和道德领域中对用户行为产生更大的影响。

随着ChatGPT、Dall-E和Gemini等人工智能工具的兴起,文本、音频和视频模式的生成内容正在迅猛增长。使用相同的人工智能工具,这样的内容可以轻松个性化。例如,可以使用照片制作深度伪造视频,或者使用音频样本制作深度伪造的声音。在这项研究中,我们想探索生成式人工智能环境(例如个性化故事)如何影响用户行为,尤其是在高中学生中的影响。

为了进行这项研究,我们利用ChatGPT的内容创作能力,在考试作弊、摄入含有迷药巧克力以及保留志愿者基金收集的三个吸引人的情境中进行了探索。我们探讨了当内容个性化时,用户行为在这些领域中如何变化,并将观察到的用户行为与心理健康得分进行了比较。我们的研究表明,在金融领域中,用户的行为受到的影响更大,而在道德和伦理领域中受到的影响较小。

生成人工智能 (AI)

AI生成工具是指实施人工智能及其相关技术(如机器学习算法)以响应通常由人输入的提示来执行任务的系统和软件。这些系统输出文本、音频、视频和其他内容,模仿通常由人类创造的内容。

生成工具的激增可以与现有工具的使用增加相关联。这包括ChatGPT,它是由OpenAI开发的一种工具,经过训练可以生成类似人类回复并理解对话上下文的多样化互联网文本工具。它已经在各种应用中被使用,从提供协助和信息到创造性写作和解决问题。用户可以通过文本输入与ChatGPT进行交互,使其成为一种多功能的语言相关任务工具。Dall-E是OpenAI开发的另一个受欢迎工具。它专门用于图像生成,并通过训练从文本描述中创建图像。该模型可以根据以自然语言提供的提示生成多样化和创造性的视觉输出。它因其生成独特和富有想象力的图像的能力而引起了关注,展示了人工智能在创意领域的潜力。诸如Runway之类的应用通过增强用户输入的视频或输入一个提示来要求生成具有特定内容的视频。在这项研究中,我们特别关注基于文本的人工智能。

为了个性化内容,使用特定的关键词或短语。例如,如果想要在类似ChatGPT的程序中检查一串代码,则可以使用类似“检查以下输入的代码是否有错误”的命令。如果想要创建一个有特定名称的包含两个角色的故事,可以输入“写一个包含两个名为X和Y的角色的故事……”,其中X和Y是角色的名称。在使用Dall-E创建图像时,个性化的程度相同,但提示通常需要更具体。总的来说,这些AI生成工具是开放式的,并且通常会对与现实生活中的人类相同甚至更复杂的情境做出回应。

有几种方法可以研究个性化生成人工智能内容(PGAC)对心理健康的影响。其中一种方法是在一个长时间段内观察受试者,在暴露于PGAC之前和之后了解他们的心理健康状况。我们的工作更关注短期效果,即在参与者接触PGAC之前和之后,观察他们的心理健康和意见。

精神健康评分方法的选择

有很多方法可以评估心理健康。GAD-7可以用来根据自我评估测试来衡量焦虑症状。PHQ-9是一个问卷,旨在评估一个人评价自己的抑郁程度。BDI是一个自我评估测试,用于评估患者是否面临抑郁症状和特征态度,比PHQ-9更详细。K10用于根据国际标准检测成年人的焦虑和压力水平。这个分数可以用于检测抑郁和焦虑的程度。SDQ反映出被试人的优点和困难。这是对青少年心理健康的整体心理评估的更全面的评价,涵盖了社交行为、情绪困扰、活动过度、行为以及整体的困难。MHI-5是一种工具,通常基于国际标准评估成年人的心理健康。它衡量焦虑、抑郁、行为控制、积极情绪和一般困扰。WEMWBS是一种只关注心理健康积极方面的测试。它还可以用于评估旨在改善心理健康的努力、政策和倡议,并帮助观察某些行动前后心理健康的变化。CD-RISC用于测试患者在创伤后应激障碍评估方面的抗压能力。

由于SDQ是最能评估目标受众(青少年)的工具,因此在这项研究中使用了它。此外,这个问卷能更好地洞察某个青少年可能存在的整体心理困难,而不是只关注特定的心理健康问题,从而使得对青少年之间进行整体比较和分析成为可能。

参与者在问卷中会对一系列陈述回答“不符合实际”,“有些符合实际”或“完全符合实际”。样本陈述包括以下内容:“我常常与人争吵。我可以让别人按照我的意愿行事”;“我完成正在做的工作。我的注意力很好”;“我经常担心”。根据这些回答,通过只计算与评估心理健康困难相关的陈述分数来计算SDQ评分。根据参与者的回答,将会计算出一个得分,该得分将落在以下范围内:0-14(接近平均水平);15-17(稍稍升高);18-19(高);20-40(非常高),每个范围代表了对某个人的心理健康程度的关注程度。

实验方法论:

为了测试生成式人工智能(特别是ChatGPT)是否会影响青少年的心理健康,我们希望研究在三个特定主题的意见变化之前和之后,在SDQ问卷的分数陪伴下,人工智能生成的三个关于这些主题的故事的趋势。这三个不同的故事涉及以下内容:“在考试期间作弊的任何行为对你来说是否可接受?”; “考虑到同伴的压力,食用少量含有药物的巧克力是否可以接受?”; “在高中志愿者筹款活动中,是否可以保留一小部分筹集到的资金?”。它们都是使用ChatGPT创建的,并根据参与者的情况进行了个性化处理,使他们的名字成为每个双人故事中的一个角色的名字。参与者从15到17岁的年龄组招募,并为他们的时间和努力提供了10美元礼品卡作为激励。每个人都填写了一份调查问卷。调查问卷的第一个问题询问了他们对每个主题的看法,以及通过以下部分提出的问题来评估所涉及的道德问题是否可接受。然后,他们被呈现出一篇个性化故事,其中他们是与所涉及的道德问题相关的情境中的两个角色之一,并且实施了相应的行为。阅读完故事后,参与者需要给故事评分,评分范围从1到5(1:糟糕,2:差,3:一般,4:好,5:优秀),并解释他们选择该选项的原因。完成这些后,他们填写了一个有关整体困难的问卷,以便对SDQ进行评估。

以HTML结构为基础,将以下英文文本翻译为简体中文: 使用ChatGPT生成考试作弊故事,但后来根据每位参与者个性化定制。

从前,在梅多维尔这个小镇上,有两个形影不离的朋友,(参与者)和弗里达,他们正准备迎接这学期最具挑战性的考试。他们一起度过了无数个小时的学习,无论遇到困难还是患得患失,都相互支持。然而,命运为他们准备了一些意想不到的事情。

考试前一晚,弗雷达突然生病了。一阵突发的发烧和持续的咳嗽让她整夜辗转难眠。__(参与者)__对朋友的健康非常担心,一直陪伴在他/她/他们的身旁,给予安慰和药物治疗。黎明降临时,显而易见的是弗雷达没有条件参加即将到来的考试。

尽管弗里达状态已经很虚弱,她坚持让(参与者)独自去参加考试。她知道(参与者)在为此付出了多少努力,不希望他/她们的努力白费。面对对朋友的忠诚和担心错过关键考试之间的冲突,(参与者)陷入了道德困境。

正当 _(参与者)_ 准备离开去考场时,一个绝妙的主意突然闪现在他/她/他们脑海中。她决定把考试带给弗里达,于是她在没有老师察觉的情况下从考场带出了考试。

带着考试试卷牢牢地 in hand,_(参与者)__ 返回了弗莱达的家。 _(参与者)__ 在她的客厅里设置了一个临时的考场,配备了计时器和所有必要的工具。弗莱达虽然身体仍然虚弱,但她下定决心坐下来回答问题,而_(参与者)__ 则监督这个过程。

当费达疯狂地写着的时候,(参与者)情不自禁地感到焦虑和宽慰交织在一起。他/她/他们知道风险很高,有可能他们的行动会被视为不道德。然而,他/她/他们让自己相信情况非同寻常,他们的意图是纯粹的。

最后,弗雷达设法完成了考试。_(参与者)__赶回考场,及时提交了试卷。这一事件仅仅是两个朋友之间的秘密,没有人怀疑任何事情。

随着学期的进展,(参与者)和 Freda 怀着期待等待考试成绩。当成绩终于公布时,两位朋友都高兴地发现,由于(参与者)的帮助,Freda 表现出色。

使用ChatGPT生成的药物摄入故事,但后来根据每个参与者进行个性化调整

在宁静泉镇这个充满活力的小镇上,两个朋友(参与者)和比利发现自己陷入了一个意想不到的道德困境。每年一度的镇上集市正在全力进行中,在五彩斑斓的摊位和热闹的音乐中,引人注目的一个不寻常的巧克力摊贩引起了他们的注意。

这个以他/她/他们古怪创意而知名的售货商自豪地展示了一批巧克力,其中注入了一种天然放松剂的微量。据说这些巧克力能够提供一种微妙的宁静和幸福感,而没有任何有害的副作用。__(参与者)__知道它们里面有药物。当__(参与者)__和比利浏览选择时,他/她/他们禁不住对在集市的喧嚣中体验片刻宁静的想法感到好奇。

经过深思熟虑后,敢于冒险的_(参与者)__建议他们每个人都尝试一块特殊的巧克力。瞬间摆脱压力和烦恼的诱惑令比利感到犹豫,但又充满了好奇。

当他们站在巧克力摊旁思考伦理含义时,他们考虑了放松剂的温和性质和暂时逃避日常生活压力的潜力。 __(参与者)__认为这是一个独特的机会,可以在没有任何危害的情况下放松,强调了摊贩保证剂量既温和又自然。比利感到好奇,但仍然不确定,质疑故意消费含有药物的巧克力来改变心境的道德性,即使只是轻微的改变。 然而,__(参与者)__将其描述为一次无害的实验,类似于喝一杯酒放松心情。

最后,受_(参与者)__有说服力的理由和逃离压力的诱惑所影响,比利同意了。他们每人购买了一块巧克力,并带着兴奋和忐忑不安的心情咬了一口。

随着轻度镇定剂开始发挥作用,(参与者)和比莉感受到一股温和的宁静洗涤了他们。游乐园的色彩显得更加鲜艳,人群的笑声成为了一首舒缓的旋律。在那一刻,他们理解了巧克力的吸引力,并享受着暂时从日常烦恼中解脱出来的愉悦。

使用ChatGPT生成的筹款故事,后来根据每个参与者进行个性化定制。

在奥克里奇的中心地带,一个以支持崇高事业而闻名的紧密社区,一个对慈善事业充满热情的高中生,(参与者)采取了组织有机食品活动为患癌症的病人的倡议。受到家人患癌症的经历的启发,(参与者)相信提供营养丰富的有机餐食可以对正在接受治疗的人们的健康产生重大影响。

随着这项活动的发展,(参与者)投入了无数个小时来组织活动,提高意识并募集捐款。社区的反应热烈,活动很快超过了最初的目标。在满心成就感的同时,(参与者)发现自己手里握着1000美元现金,这些钱被用来购买有机食品给癌症患者。然而,当他/她/他们数着钱的时候,一种微妙的诱惑涌入了(参与者)的脑海。只保留一个小部分——只有5%——作为对他/她/他们的时间和努力的一种报酬,这个想法变得越来越有吸引力。(参与者)以自己作为学生的经济困境以及为了这项活动所做出的个人牺牲来为这个想法辩解。

陷入这场内心斗争的泥沼中,(参与者)与矛盾的情绪抓斗着。他/她/他们说服他/她/他们自己,取一小部分不会对运动的目标产生重大影响,可以被视为对他/她/他们辛勤工作的公平补偿。一天晚上,(参与者)与他/她/他们最好的朋友杰克坐下来向他/她/他们吐露心事。杰克理解(参与者)面临的经济压力,对他/她/他们朋友的处境表示同情。“你工作得如此辛苦,(参与者),一点补偿也不会有什么坏处。把它看作对你对事业的奉献的认可吧。”杰克建议道,无意中推动(参与者)朝着一项将测试道德行为界限的决定。

在这种保证的推动下,(参与者)决定将资金的5%留给他/她/他们自己。他/她/他们认为与整个筹款总额相比,这是一个适度的数额,并且可以减轻他/她/他们作为一位苦苦挣扎的学生的经济负担。最终,(参与者)用50美元用于个人开支,保留其余的金额购买有机食品。该活动继续成功进行,癌症患者们得到了预期的支持。

结果与观察:

所有参与者的平均SDQ分数为10.7,这表明整体样本的心理健康状况接近正常。

每个道德问题的初始平均回应为0,表明没有人认为欺骗、因同伴压力而未成年人使用毒品,或以任何情况下为个人使用筹集资金是可以接受的。在受访者阅读了故事后,对于欺骗情节、因同伴压力而未成年人使用毒品,以及为个人使用筹集资金的平均回应分别为约0.273、约0.364和约0.545。

总的来说,生成性个性化的人工智能内容确实在给定情境中引起了一定程度的参与者观点变化,有些变化更大、更强烈。在作弊情境中,参与者给出情境后的平均回应为0.273,表明虽然有一些变化,但总体回应仍然倾向于不可接受。在同龄人压力下的药物使用情境中,变化较为中等:参与者给出情境后的平均回应为0.364,表明相较于作弊事件的情境,对于给定的格式更倾向于接受该情境为可接受的。在个人经费使用情境中,观点发生了强烈变化:参与者给出情境后的平均回应为0.545,表明总体观点从从不可接受(0)变为可能可接受(0.5)。

结论

总的来说,研究发现,在与金融相关的道德情境中,生成式人工智能的影响力最大,在与学术不诚实相关的情境中影响力最小。随着人工智能的不断发展,重要的是考虑它对青少年决策的影响,并可能需要制定相关规定。

参考文献:

SDQ: https://sdqinfo.org/py/sdqinfo/b3.py?language=English&qz(美国)

SDQ评分:https://sdqinfo.org/py/sdqinfo/c0.py

本文是Research Spark Hub Inc(https://www.researchsparkhub.com)的研究冒险计划的一部分。

2024-01-23 04:41:21 AI中文站翻译自原文