首页 > AI前沿 > 正文

机器如何拥有记忆?DeepMind解读,最新长程记忆模型和数据库

转载 2020-02-12 0 7
赖可 编译
量子位 报道 | 公众号 QbitAI

人可以轻易记起几年前的事情,并根据那时的记忆在当下继续思考。这个能力对于计算机来说,就非常困难。

研究者也一直在为此努力。去年底,为了让计算机有更长程的记忆和推理,Deepmind发布了一个新的模型和数据集。

近日,DeepMind官方博客发表了最新的文章,对此进一步解读。文章既回顾了计算机处理“记忆“的历史,也解读了新的模型和数据集获得的进展。

回顾:深度学习如何处理记忆

设计出交流电系统的发明家尼古拉曾经说:

机器如何拥有记忆?DeepMind解读,最新长程记忆模型和数据库
尼古拉·特斯拉

在AI领域,最早的、也应用最广泛的记忆结构是循环神经网络(RNN),被称为长短期记忆(LSTM),适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

但是它的计算效率低下,模型里的模型中可学习参数的数量会随内存大小呈二次增长。内存大小为64KB的LSTM就会产生大小为8GB的参数。

于是,DeepMind提出了新的构架DNC,即可微分神经计算机,使用了更大的内容矩阵来增强LSTM。

DNC使用注意力操作来从矩阵中读取内容。类比人的视觉注意力,人会被想要关注的事物吸引注意力。比如一个人会把注意更多地放在朋友的面部表情上,而不是鞋子。在DNC中,内存模型可以处理过去的特定事件和数据。

与DNC类似,带有附加注意力机制的RNN在翻译和回答问题上都表现出色。

自然语言模型的发展

统计语言建模既能推进记忆架构的发展,也能够促进AI领域对普遍智能的发展。

语言模型通过连续预测文本流中的下一个单词来工作。它可以用来模拟现有的文本,也可以用来生成新的文本。在模拟过去方面做得越好,预测就变得更加准确,生成的文本也更真实。

通过对上下文的概率建模,可以进行文本预测和生成。而增加上下文会提升文本质量。因此长程依赖关系是语言模型的重要挑战。

WikiText-103是被广泛使用的长程语言模型。由英文维基百科文章组成,由Salesforce AI的研究人员开发。文章平均大约有3600个单词,在开发的时候,远远超过了当时最先进模型的内存窗口。

然而,谷歌研究人员最近发现,一种Transformer变体——叫做TransformerXL——可以保持对过去网络活动的记忆,并可以使用超过1000个单词的上下文。

模型的发展提出了新的问题:这些基准测试会很快饱和吗?因此,DeepMind发布了新的的语言模型基准测试。

数据集PG-19

DeepMind发布的新语言建模基准数据集,名为PG-19

数据来源于古登堡计划在线图书馆的古籍 (Project Gutenberg online library),选择了1919年之前出版的文本。对文本很少预处理,例如,不限制单词长度,不审查数字。

PG-19的大小是之前的语言建模基准测试的两倍以上,有的文本长度是WikiText-103的10倍以上。

机器如何拥有记忆?DeepMind解读,最新长程记忆模型和数据库

△PG-19与其它语言建模基准比较

新的长程记忆模型

DeepMind还提出了一个新的长程记忆模型Compressive Transformer。这是一种长时间连续的关注序列模型。

它的灵感来源于睡眠对记忆的压缩和巩固。

当模型经过一系列的输入时,类似于记忆片段的颗粒状记忆会被收集,随着时间的推移,它们最终会被压缩。

机器如何拥有记忆?DeepMind解读,最新长程记忆模型和数据库

△用粗压缩颗粒状短期记忆来描述过去

DeepMind发现,在不使用额外训练数据集的情况下,Compressive Transformer在为WikiText-103和Enwik8这两个基准建立自然语言模型上,有最先进的性能。

机器如何拥有记忆?DeepMind解读,最新长程记忆模型和数据库

它还可以用于语音建模,尤其是处理罕见单词,并可在增强学习代理中使用,来解决记忆任务。

使用PG-19基准后,Compressive Transformer的最强性能也能够获得提升,可以编写类似书籍的摘要。

Compressive Transformer能够产生多种风格的叙述,多角色对话,第一人称日记,或第三人称散文。尽管该模型对语言的理解不是建立在现实世界的基础上的,也不是建立在现实世界中发生的事件的基础上,但是通过捕捉更长程的相关性,能够出现更连贯的文本

记忆构架的未来

当努力创建操作时间超过几天、几周甚至几年的智能体时,在每个步骤中对所有原始数据进行计算是不切实际的。即使目前计算能力增长,仍需要为记忆开发压缩和稀疏的架构,来构建操作的表示和推理。

DeepMind认为,能够捕捉到日、月、年经验相关性的模型即将问世。实现更强大推理,需要对过去进行更好的选择性关注,以及更有效的压缩机制

传送门

https://deepmind.com/blog/article/A_new_model_and_dataset_for_long-range_memory

https://arxiv.org/abs/1911.05507

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

相关文章


  • 波士顿动力智能机器狗入职石油公司
  • 钟南山最新采访:疫情有望4月结束,李文亮医生是英雄,24天潜伏期是孤例
  • 文远知行回应王劲“清盘”诉求:恶意损害公司利益,不会影响进行中的B轮融资
  • 杨元庆:制造业短期将受冲击,希望加大税收金融扶持力度
  • 疫情期间,苹果宣布为中国用户延长设备保修期
  • 微软发布史上最大AI模型:170亿参数横扫各种语言建模基准,将用于Office套件
  • 百度Apollo无人车加入战疫:免费开放自动驾驶能力,赋能清洁消毒、送餐和物流
  • 谷歌员工与管理层关系紧张之际,人力资源主管宣布辞职