摘要: 尖峰神经网络(Spiking Neural Networks,SNNs)由于其潜在的能效优势、低延迟以及持续学习的能力,正处于神经形态计算的前沿。尽管这些特性非常适合机器人任务,但到目前为止,SNNs 在该领域的应用仍然有限。本文介绍了一种用于视觉地点识别(Visual Place Recognition,VPR)的尖峰神经网络,该网络不仅可以在几分钟内训练完成,还能在毫秒级内进行查询,非常适合部署在计算资源受限的机器人系统上。我们提出的系统 VPRTempo,通过使用一种抽象化的 SNN 以效率为优先,牺牲了一定的生物学真实性,克服了以往模型在训练和推理时间上的瓶颈。VPRTempo 采用了一种基于像素强度来决定单次尖峰时间的时间编码方式,而非以往 SNNs 依赖的基于尖峰数量的速率编码方式,从而提高了尖峰效率超过100%。VPRTempo 使用尖峰时间依赖可塑性(Spike-Timing Dependent Plasticity)和一种监督的 delta 学习规则进行训练,确保每个输出尖峰神经元仅对一个地点做出响应。我们在 Nordland 和 Oxford RobotCar 基准定位数据集上评估了我们的系统,这些数据集包含多达 27,000 个地点。结果显示,VPRTempo 的准确性与之前的 SNNs 和流行的 NetVLAD 地点识别算法相当,但在速度上快了几个数量级,适合实时部署——在 CPU 上推理速度超过 50 Hz。VPRTempo 可以作为闭环SLAM(同步定位与地图构建)的组件,应用于计算资源有限的系统,例如太空和水下机器人。
1. Intro
Contributions:
- 我们提出了 VPRTempo,这是一个用于视觉地点识别(VPR)的新型尖峰神经网络系统。据我们所知,这是首次通过时间尖峰编码来表示地点信息(见图1),显著增加了每个尖峰的信息含量。
- 我们显著降低了尖峰网络的训练时间至不到一小时,并提升了查询速度至实时水平,适用于 CPU 和 GPU 上的计算,具有在资源受限的计算场景下表示数万个地点的潜力。
- 我们展示了该轻量化且高度计算高效的系统在 Nordland 和 Oxford RobotCar 基准数据集上与流行的地点识别系统(如 NetVLAD)具有可比的性能表现。
2. Related Works
关于Temporal Encoding:
Various temporal coding strategies have been used for image classification where it achieved very high accuracy. One way to achieve temporal coding is to define the pixel intensity of an image not by the number of spikes the system propagates, but the timing of a single spike in a time-step. Another method to achieve a similar outcome is to model the oscillatory activity of the brain to modulate when spikes occur, relative to the phase of a constant, periodic shift in a neurons internal voltage.
提到temporal encoding适合用STDP,并且存在多种不同的temporal encoding。
3. Methodology
模型只有三层,input layer和Feature layer之间连接是洗漱的,feature layer到output layer之间是全连接的。
Neuron:
和 分别是兴奋性和抑制性权重。
用STDP训练:
更新的时候添加一个机制,每当传递给突触后神经元的总输入为正时,抑制性权重会略微增加。反之,当突触后神经元的净输入为负时,抑制性权重会减少。两种情况均通过以下方式实现:
添加了一个叫做Spike Forcing的技术,来自BliTNet,目标是希望让输出层的neuron发放的幅度总是0.5,但是不知道为什么。
一个三层的model学了大概一千个场景之后就会开始遗忘,结果解决办法是弄好多个不同的model学不同的场景,推理的时候每个跑一遍,有点抽象了。
4. Experiment Setup and Implementation
输入特别小,只有27 * 27,并且要经过一次伽马校正,超参数还全是搜出来的。
5. Result
三个model在CPU上推的平均速度是50Hz,训练时间是6h。Acc也没有很明显的提升。
6. Conclusions and Future Work
未来有多个方向可以继续研究并将其应用于机器人定位和 VPR 方法:1)我们正致力于将我们的方法移植到 Intel 的神经形态处理器 Intel Loihi 2 上,以在节能硬件上部署;2)为了部署在神经形态硬件上,我们正在研究使用事件摄像头的事件流作为网络输入,以进一步减少延迟并提高能效;3)鉴于我们的系统具有快速的训练和推理时间,我们正在探索将该网络部署到机器人上,实现新环境的在线和实时学习。
被Temporal Encoding骗进来的,结果工作太简单了,不知道是怎么发ICRA的。