AI无限学习、进化研究登上Nature；Meta提出多模态模型训练方法Transfusion｜一周热门

时间： 2024-08-25

推荐文章

推进党纪学习教育常态化长效化

热度：

7个高效的学习方法新学期成绩一路“狂飙”！

热度：

迈创股份取得一种基于生命周期的相互学习长期时序预测方法专利提高预测准确率

热度：

青岛理工大学管理工程学院：多措并举扎实开展研究生新生入学教育助力“研”路起航

热度：

中央办公厅关于巩固拓展学习贯彻习新时代中国特色社会主义思想主题教育成果的意见

热度：

　　大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分，带你快速跟进大模型行业热门动态。

　　Luma Labs 推出了 Dream Machine 1.5，为用户提供卓越的文本到视频生成功能、更智能的提示和自定义文本渲染功能，从而提升视频创作水平。

　　日前，OpenAI 推出了 GPT-4o 微调功能，允许开发人员定制模型响应，旨在提高特定领域任务（如软件工程和文本到 SQL）的性能，并限时为 GPT-4o 提供每天 100 万个免费训练 token，为 GPT-4o mini 提供 200 万个免费 token。

　　据《科创板日报》报道，昆仑万维推出了全球首个集成视频大模型与 3D 大模型的 AI 短剧平台 SkyReels。SkyReels 平台集剧本生成、角色定制、分镜、剧情、对白/BGM 及影片合成于一体，让创作者“一键成剧”，轻松制作高质量 AI 视频。

　　根据《时代周刊》和五名知情人士查阅的文件副本，Google DeepMind 内部的 200 名早期员工签署了一封信，呼吁这家科技巨头放弃与军事组织的合同。这封信的传播正值该公司内部越来越担心其技术被出售给参与战争的军队，他们认为这违反了谷歌自己的人工智能规则。

　　大语言模型（LLM）可以产生看似智能的回应，但它们缺乏在使用过程中继续学习的能力。这阻碍了它们在被更多使用时给出更准确的回复，也无法通过对新数据集进行训练而变得更加智能。

　　来自阿尔伯塔大学的研究团队测试了传统神经网络在原始数据集上进行训练后继续学习的能力，发现了所谓的“灾难性遗忘”现象，即系统在接受新数据训练后，失去了执行原来能够完成的任务的能力。他们还发现，如果对多个任务进行顺序训练，这些系统也会完全丧失学习能力——他们将此描述为“可塑性丧失”。

　　在这项研究中，他们找到了解决问题的方法——通过重置之前与网络上的节点关联的权重。在人工神经网络中，节点使用权重来衡量其强度，随着权重的增加，它所传达的信息的重要性也随之增加。研究人员建议，使用用于初始化系统的相同方法在训练会话之间重新初始化权重，应该可以保持系统的可塑性，并使其继续在其他训练数据集上学习。

　　在这项工作中，Meta 团队及其合作者提出了一种通过离散和连续数据训练多模态模型的方法——Transfusion，其将语言建模损失函数（下一个 token 预测）与扩散相结合，在混合模态序列上训练一个 transformer。他们在文本和图像混合数据上从头开始预训练了多个 Transfusion 模型，参数为 7B，建立了与各种单模态和跨模态基准相关的缩放规律。

　　实验表明，Transfusion 的扩展能力明显优于量化图像和在离散图像 token 上训练语言模型。通过引入特定模式的编码和解码层，他们可以进一步提高 Transfusion 模型的性能，甚至可以将每幅图像压缩到 16 个 patch。他们进一步证明，将 Transfusion 扩展到 7B 参数和 2T 多模态 token，可以生成与类似规模的扩散模型和语言模型相当的图像和文本，从而同时具备两类模型的优点。

　　目前的长上下文大语言模型（LLM）可以处理多达 10 万个 token 的输入，但很难生成长度超过 2000 个 token 的输出。通过对照实验，来自清华大学和智谱AI 的研究团队发现，模型的输出限制是由于现有 SFT 数据集中长输出示例的稀缺性造成的。为了解决这个问题，他们提出了一种基于智能体的管道——AgentWrite，其可以将超长生成任务分解为子任务，使得现有可用的 LLM 能够生成超过 20000 字的连贯输出。利用 AgentWrite，他们构建了 LongWriter-6k，这是一个包含 6000 个 SFT 数据的数据集，输出长度从 2k 到 32k 字不等。通过将该数据集纳入模型训练，他们成功地将现有模型的输出长度扩展到了 10000 字以上，同时保证了输出质量。

　　来自 MultiOn 和斯坦福大学的研究团队提出了一个框架，它将蒙特卡洛树搜索（MCTS）与自批评机制相结合，并使用直接偏好优化（DPO）算法的离策略（off-policy）变体对智能体互动进行迭代微调。这一方法允许 LLM 智能体从成功和不成功的轨迹中有效地学习，从而提高它们在复杂的多步骤推理任务中的通用性。他们在 WebShop 环境（模拟电子商务平台）中验证了这一方法，其性能始终优于行为克隆和强化微调基线，并在具备在线搜索功能时优于人类的平均性能。在真实世界的预订场景中，在一天的数据收集后，这一方法使 Llama-3 70B 模型的零样本成功率从 18.6% 提高到 81.7%（相对提高 340%），在线搜索成功率进一步提高到 95.4%。

　　在这项研究中，Meta 团队提出了一种专为个性化图像生成而设计的模型——Imagine yourself。与传统的基于微调的个性化技术不同，Imagine yourself 是一种免微调模型，所有用户都能利用共享框架，无需进行个性化微调。研究表明，Imagine yourself 超越了 SOTA 个性化模型，在身份保持、视觉质量和文本对齐方面表现出卓越的能力。人类评估结果证明，与以前的个性化模型相比，该模型在身份保持、文本忠实性和视觉吸引力等方面都达到了 SOTA。

　　来自英属哥伦比亚大学的研究团队提出了智能体系统自动设计（ADAS），旨在自动创建功能强大的智能体系统设计，包括发明新的构建模块和/或以新的方式组合它们。ADAS 中有一种尚未开发但前景广阔的方法，即可以用代码定义智能体，并通过元智能体在代码中编写更好的智能体来自动发现新智能体。通过跨编码、科学和数学等多个领域的广泛实验，他们发现这一算法可以逐步发明出具有新颖设计的智能体，其性能大大优于 SOTA 人工设计智能体。

　　来自华盛顿大学和 Meta 的研究团队提出了一种新颖的图像、视频生成模型，将图像和视频直接建模为通过标准编解码器（如 JPEG、AVC/H.264）保存在计算机上的压缩文件。他们使用 Llama 架构，不做任何针对视觉的修改，通过直接输出 JPEG 和 AVC 格式的压缩文件字节，从头开始预训练 JPEG-LM 来生成图像（作为概念验证，AVC-LM 生成视频）。对图像生成的评估表明，这种简单直接的方法比基于像素的建模和复杂的矢量量化基线更有效，该方法可将 FID 降低 31%。

　　在这项工作中，来自英伟达和麻省理工学院（MIT）提出了长上下文视觉-语言模型的全栈解决方案 LongVILA，包括系统、模型训练和数据集开发。该全栈解决方案将 VILA 的可行帧数扩大了 128 倍（从 8 帧增加到 1024 帧），并将长视频字幕得分从 2.00 提高到 3.26（1.6 倍），在 1400 帧视频（274k 上下文长度）中实现了 99.5% 的准确率。

　　AI21 Labs 团队提出了基于 Jamba 架构的新指令微调大语言模型 Jamba-1.5。Jamba 是一种混合型 Transformer-Mamba 混合专家架构，可在不同上下文长度下提供高吞吐量和低内存使用率，同时保持与 Transformer 模型相同或更好的质量。在一系列学术和聊天机器人基准上进行评估时，Jamba-1.5 模型取得了优异的成绩，同时提供了高吞吐量，并在长上下文基准上优于其他开放权重模型。

　　在这项工作中，来自北京邮电大学和中国科学院大学的研究团队提出了基于 Mamba 的自回归图像生成模型——AiM。与现有的通过多放向扫描调整 Mamba 来处理二维信号的方法不同，AiM 直接利用下一个 token 预测范式来生成自回归图像。这种方法避免了为使 Mamba 学习二维空间表征而进行大量修改的需要。在 ImageNet1K 256*256 基准上，AiM 模型达到 2.21 的 FID，超过参数数量相当的现有自回归模型，与扩散模型相比具有显著的竞争力，推理速度快 2 到 10 倍。

　　在周二的一项裁决中，加州一名联邦法官决定公开 X 控股公司详细的公司披露声明，此举将有效地揭开 X 母公司（前身为Twitter）和 x.AI 的股东名单，x.AI 是马斯克于 2023 年创办的人工智能初创公司。马斯克于2022年以440 亿美元收购了Twitter，将该公司私有化，并解雇了大约四分之三的员工。

　　彭博新闻社周三获得的一封发给加利福尼亚州参议员 Scott Wiener 办公室的信称，这家总部位于旧金山的初创公司表示，该法案将损害人工智能行业的创新，并认为关于这个问题的监管应该来自联邦政府，而不是各州。这封信还引发了人们的担忧，即该法案如果获得通过，可能会对美国在人工智能和国家安全方面的竞争力产生“广泛而重大”的影响。

　　来自达姆施塔特工业大学和巴斯大学的研究团队发现，GPT 等 LLM 尚无法独立地学习或获得新技能，这意味着它们不会对人类构成生存威胁。他们表示，“涌现能力” 背后的真相或许比科幻电影更富有戏剧性，许多所谓的“涌现能力”，其实都是 AI 大模型在面对不熟悉的任务时，依赖于已有的数据和经验做出的“即兴表演”。相关研究论文以 “Are Emergent Abilities in Large Language Models just In-Context Learning?” 为题，已发表在 AI 顶会国际计算语言学年会（ACL）上。Parker Conrad：太多的软件公司在他们的产品中添加了并不真正有用的人工智能功能

　　近日，估值 135 亿美元的人力资源初创公司 Rippling 的创始人 Parker Conrad 在 Found 播客中表示，太多的软件公司一直在他们的产品中添加并不真正有用的新奇 AI 功能。他说，现在，人们疯狂地争夺 AI 的资本，以至于整个科技行业都想“将 AI 精灵粉”“撒在他们的所有产品中。

　　Cohere 创始人 Aidan Gomez：出售模型使用权正迅速成为一项“零利润业务”

　　OpenAI 和 Anthropic 每年花费数十亿美元来训练 GPT-4 和 Claude 等模型，但竞争性价格倾销使这些平台的业务相当不稳定。Cohere 的首席执行官 Aidan Gomez 在一播客节目中表示，出售模型的使用权正迅速成为一项“零利润业务”。目前，这些人工智能模型的成本高于它们制造的成本。“这将像一个零利润的业务，因为有太多的价格倾销。人们免费赠送该模型。这仍然是一门大生意，仍然是一个相当高的数字，因为人们需要这项技术——它的增长非常迅速——但利润率，至少现在，将非常紧张。”

　　OpenAI 周二打破了对加州最受争议的人工智能法案的沉默，在给加州参议员斯科特·维纳（Scott Wiener）和州长加文·纽森（Gavin Newsom）的一封信中正式表达了反对意见。这家人工智能巨头认为，Wiener 于 2 月份推出的 SB 1047 法案将扼杀创新并将人才赶出加州——Wiener 很快回答说，这一立场“毫无道理”。

　　加拿大阿尔伯塔大学的 Shibhansh Dohare 和他的同事们已经测试了最常见的 AI 模型是否可以适应持续学习。该团队发现，他们很快就会失去学习任何新事物的能力，大量人工神经元在接触新数据后会卡在零值上。研究发现在经过几千次再训练周期后，神经网络似乎无法学习并且表现不佳，许多神经元似乎“死亡”或值为零。

　　据《科创板日报》报道，来自 IDC 的报告数据显示，2023 年中国大模型平台市场规模达 17.65 亿元人民币。百度智能云以 19.9% 的市场份额获中国大模型平台市场第一；商汤科技以 16% 份额位居市场第二；智谱AI 则是 2023 年初创企业中的胜出者，位居市场第三。

　　韩国计划在学校引入人工智能驱动的数字教科书，这引起了家长和学者的强烈反对，他们担心孩子过度接触数字设备和潜在的错误信息。教育部长 Lee Ju-ho 本周表示，装有人工智能功能的平板电脑对于韩国学校系统计划的全面改革“至关重要”。这项技术将于明年引入教室，供 8 岁的学童使用。但韩国政府称，这项提案是世界上第一个此类提案，遭到了许多家长的反对，他们已经对孩子使用智能手机和平板电脑的时间感到焦虑。

　　根据跟踪大型企业公开披露的研究平台 Arize AI 的研究，总体而言，56% 的财富 500 强公司在其最近的年度报告中将人工智能（AI）列为“风险因素”。这一数字与 2022 年的 9% 相比有了惊人的跃升。相比之下，在专门讨论生成式 AI 的 108 家公司中，只有 33 家将其视为机会。这些团体在其年度报告中表示，潜在的好处包括成本效益、运营效益和加速创新。该群体中超过三分之二的人将生成式 AI 视为风险。

　　据《科创板日报》报道，罗格斯大学的一项研究表明，GPT-4 能高精度模拟简单的氨基酸和蛋白质结构。该科研团队使用 GPT-4 探索其在基本结构生物学任务中的表现，结果发现其可以准确预测分子结构，相关研究成果已发表在 Scientific Reports 上。

AI无限学习、进化研究登上Nature；Meta提出多模态模型训练方法Transfusion｜一周热门

推荐文章

相关推荐文档

相关热搜