字节尺寸的AI版#4

#上周发生了EveryAIthing

ChatGPT中文站 — Image by Author via Microsoft Designer

精选：G7 承诺起草负责任人工智能标准，对抗 AI 幻觉的新方法，研究人员制定了 LLMs 优化计算的缩放定律，并且解决语言障碍：AI 聊天机器人的挑战。

G7领导人同意合作管理人工智能 G7同意启动一个工作小组，加强应对生成式人工智能治理的合作。该倡议被称为“广岛人工智能进程”，将于今年晚些时候开始，并将有相关国际机构参与。G7致力于起草负责任的人工智能标准，并根据共享的民主价值观更新数字经济的治理。日本还成功说服其他G7领导人进一步推广一项名为“信任的数据自由流动（DFFT）”的跨境数据流安全倡议。

我的意见：

G7推出的广岛人工智能进程是解决生成式人工智能所带来挑战的重要一步。国与国际机构间的合作对确立有责任的人工智能标准，以确保数字经济的治理与共享民主价值相一致非常关键。推广数字自由贸易区（DFFT）也是确保跨境数据流通，并解决有关数据本地化的顾虑的重要倡议。

OpenAI 对抗 AI 幻觉的新策略：OpenAI 宣布了一种新的培训人工智能模型以对抗 AI “幻觉”的方法，即模型完全虚构信息。这种方法称为“过程监督”，其中 AI 模型被训练以在到达答案时奖励自己的每个个体正确的推理步骤。这可能会导致更好的可解释的 AI，并迈向构建定向的人工通用智能的关键一步。

我的观点：

OpenAI（开放人工智能）通过流程监督来打击AI幻觉的新方法，是应对生成型人工智能所带来的挑战的一个有前途的发展。通过训练模型为每一个正确的推理步骤奖励自己，该方法可能会导致更好的可解释的AI和更加一致的人工智能普遍性。然而，这种方法在实践中的有效性以及是否在OpenAI的产品中实施仍有待观察。

当数据匮乏时，新的AI研究对LLMs的扩展进行了研究：

研究人员研究了在数据受限的环境中扩展大型语言模型（LLMs）的方法。他们进行了不同数据重复和计算预算的测试，同时使用高达9000亿个训练令牌和90亿个参数来训练模型。结果表明，在数据受限的情况下，使用多达4个epoch的重复数据进行训练对损失的影响要小于使用唯一数据进行训练。研究人员为解决数据稀缺问题制定了最优性计算和解决问题的缩放定律。他们还发现，包括代码数据显着增加了有效令牌数，而去除常见过滤器对于噪声数据集非常有用。

我的观点：

在数据受限环境中扩展LLMs的研究是解决最终培训数据集增长限制所带来挑战的重要一步。该研究的结果对于如何在少量数据优化工作时分配计算资源提供了有价值的见解，并提供了有关通过包括代码数据和删除常见过滤器来减少数据稀缺性的指导。这些发现可能对LLMs的持续发展和扩展产生重大影响。

缩小语言鸿沟：AI聊天机器人面临的挑战：像ChatGPT这样的AI聊天机器人在英语以外的语言方面不够流利，这可能会加剧全球商业和创新中存在的偏见。研究人员发现，大型语言模型擅长将其他语言翻译成英语，但在将英语改写为其他语言方面存在困难。他们也很难流利地混合多种语言在同一个话语中。这可能会增加人们希望在全球经济中获得一席之地而必须学习英语的压力，并进一步强化和影响英语的力量。

我的观点：

英语在全球商业和创新中的主导地位是一个早已确立的现象，而像ChatGPT这样的AI聊天机器人在英语以外的语言上的限制可能会加剧这种偏见。对于AI研究人员和开发人员来说，解决这些限制并提高聊天机器人在非英语语言中的流利程度以促进多样性和创新非常重要。与政府和组织建立合作伙伴关系，获取能够增强聊天机器人语言技能的数据集，可能是弥合语言差距的一步。