Know Thyself: 鸟儿学唱歌之强化学习

刚打开电脑，知乎便推送了一篇文章，使用强化学习理论来解释鸟儿唱歌时多巴胺分泌规律，知乎文章转载自Science杂志，这里把几个链接都贴出来：

《科学》：多巴胺信号编码成功与失败

小鸟如何学会唱歌？神经系统中的强化学习或大脑利用随机数产生器探索运动空间

Dopamine neurons encode performance error in singing birds

这个研究由康奈尔大学发布。本来想直接查阅Science的原文，可惜NUS的图书馆没有Science杂志的access。下面给出一个康奈尔大学主页上对这个研究成果发表的简要介绍：

Dopamine reward helps songbirds learn to hit the right notes

这个研究的核心可以总结为：

"Dopamine spiking activity encodes performance error by evaluating the quality of ongoing behavior relative to internal performance benchmarks." ——"通过评估当前行为和预先期望的契合度，对行为误差编码，从而决定释放多巴胺的剂量，对行为进行校正"

在Science的那篇文章中，研究人员对斑胸草雀进行实验，年幼的斑胸草雀歌声没有规律，成年后才有一个特定的模式（频谱），那就说明唱歌这个行为是学习得来的，因此可以使用强化学习来诱导，这一点是整个实验的关键。研究人员观察到成年斑胸草雀唱歌的音节a的频率分布图为

若斑胸草雀唱歌频率超出2.25kHz，研究人员便播放一段白噪声，强迫鸟儿神经回路的一个负反馈，即减少其多巴胺的分泌，训练一段时间后，发现鸟儿唱歌的频谱向下偏移了以避免白噪声，其实这就是强化学习的结果，利用多巴胺进行诱导。

上述总结其实就是现代很多启发式优化算法（人工智能优化算法：GA,PSO,ABC等）的核心思想，时刻判断当下优化的fitness，符合预期就投入更多的力量，给予奖励，如果不符合预期，就减少这种行为，减少力量的投入。对于人类的行为活动又何尝不是呢？人的一生都在做这样的事情，也就是所谓的技能提升或者是成长了（有句话说的好，教做人。。）

强化学习理论的一个关键点是大脑中有一个信号表示动作的质量。下面再举几个强化学习的例子：

学习谈钢琴时，当我们有了按下某个键的想法时，大脑便有了一个benchmark，我们对于这个键的声音有一个预期，也即大脑中有一个信号表示动作的质量。如果这个键的声音不符合预期（按错键），那么信号回路给出消极反馈，多巴胺减少，如果钢琴发出正确的声音，符合大脑预期，那么这个信号回路给出积极的响应，多巴胺增加。
人类使用强化学习来训练动物的各种动作，比如杂技等。这种情况和人类学习钢琴还有点不一样，在训练动物时，必须使用一些道具（食物等）来诱导动物建立一个信号回路，一开始时的信号回路是：动作$\rightarrow$食物$\rightarrow$神经回路。

突然有一个想法，强化学习的多巴胺分泌过程，可以用一种自动控制理论来表征，那么我们能不能把自动控制理论应用到优化理论中呢？类比与生物的强化学习过程，我们可以思考如何进一步提高启发式算法的优化效果。

下面直接引用知乎的一个总结：

“强化学习理论有潜力在算法层面解释相当一部分行为的选择与学习：也许我们时刻都在判断眼下的情景是超出预期，符合预期，还是不如预期。据此，我们会增加那些超出预期的行为，减少那些不如预期的——这正是强化学习的理论核心。由于实验证明了多巴胺信号不仅编码对食物等外在奖励信号的预期误差，还可以推广到对唱歌这一主动产生行为的表现质量判断，我们有理由怀疑这一信号是我们判断大量行为是否符合目标，并据此指导行为的神经基础。”

最后，给出一张生物的强化训练示意图：

Know Thyself

Friday, December 9, 2016

鸟儿学唱歌之强化学习

No comments:

Post a Comment

About Me