-
随着欧美等国“脑计划”的实施,类脑计算将成为模式识别和人工智能的优先发展方向之一,其发展可为人工智能等提供新的思路[1]。生物视觉具有计算机视觉不可比拟的优势,其更高效、更准确,且需要的先验知识很少,使得生物视觉的研究成为了一大热门。视觉类脑计算即仿生物视觉信息处理机制的运算,其目的是将生物视觉的巨大优势引入计算机视觉领域,发展由生物启发式的计算机视觉,实现对视觉目标信息的高效处理[2]。对自然图像、复杂运动序列等视觉目标的类脑感知,构建可提取出复杂随机点视频序列运动特征的仿生视觉模型,将是计算机视觉要解决的基本问题之一。人类在感知和认识世界的过程中,有80%以上的信息是通过视觉系统获得[3],视觉系统是绝大多数生物最重要的感觉系统。通过视觉系统,可以获取目标的亮度、色彩、运动方式、形状等物理信息。研究表明,初级视皮层(primary visual cortex, V1) 和中颞叶区(middle temporal cortex, MT)是生物视觉系统处理运动信息最主要的区域,V1作为大脑视皮层中最先接收到视觉信息的区域,对纹理和边缘等信息较为敏感,并能初步感知运动信息,通过MT细胞的进一步整合,则可获取速度和方向等运动信息。
目前,研究人员基于视皮层机制提出了多种运动特征提取模型,典型的有以下3种。1) HS模型(Heeger and Simoncelli model)[4],该模型V1和MT阶段均对各自输入进行线性加权、矫正和正则化操作。运用不同时空方向的三维滤波器组来模拟具有方向和空间频率选择性的V1简单细胞,再对V1简单细胞的响应加权求和以获取V1复杂细胞的响应,最后通过对V1复杂细胞的输出加权求和来模拟MT细胞的响应;2) RMM模型(recurrent motion model)[5],一种基于递归神经网络的运动检测模型。它依据实验中MT细胞对于偏好方向(preferred direction, PD)和反PD方向响应的实验数据,采用Elman模型,有效模拟了MT神经元对于PD和反PD这一简单方向随机点的运动特征提取能力;3) FFV1MT模型(feedforward V1-MT model)[6],该模型通过三维Gabor时空滤波器模拟简单细胞的感受野,再由V1细胞响应加权组合及正则化模拟得到MT细胞模型,并将其成功地应用于光流估计和运动估计[7]。以上3种模型在一定条件下较好地模拟了视皮层V1和MT区细胞对运动信息的处理机制,可以提取光栅、栅格等连续序列和简单随机点的运动信息,但由于多方向复杂随机点视频序列运动的不连续性和高频特点,以上模型很难模拟视觉皮层对它们的区分性特征提取的能力。
鉴于此,本文根据生物实验数据,深入探索视皮层V1和MT的感受野特性,构建仿视皮层机制的运动感知模型,并将该模型的仿真结果与恒河猴(rhesus monkeys)的生物实验数据进行比较分析,以论证模型的合理性。本文以一定方向夹角(direction separation, DS)运动的双方向随机点视频序列为输入刺激,对比生物实验中的MT呈侧偏性(side-biased)的细胞响应,在剖析视皮层运动信息处理机理的基础上,建立视觉类脑运动感知模型,实现了对复杂多方向随机点视频序列的运动特征提取。另外,本文对生物视觉系统信息处理机理进行的初步探索,可为类脑计算模型的构建奠定基础,具有一定的开创性。
-
本文实验是在美国威斯康辛州大学麦迪逊分校的神经科学系,与他人合作完成,相关信息与文献[13]所述相同。生物学研究表明,恒河猴大脑视皮层区与人脑视皮层区相似度达90%以上[14]。实验对象为图 3a所示的两只成年健康的恒河猴。
实验中所用刺激为运动的无色差随机点视频序列,在静止的圆形孔径内呈现,并通过显示屏向恒河猴视网膜投影。视频序列中同一方向上的所有点均以相同的速率移动,具有运动一致性。基于控制变量的思维,通过多次给两只恒河猴视网膜投射单一方向或不同DS的随机点视频序列,实时采集响应。DS采取45°、60°、90°、135°等典型度数,具体随机点视频序列刺激如图 4所示。本文将钨电极直接连接视觉皮层MT细胞中的神经元,如图 3b所示,实时采集响应数据。本实验以前200 ms为预备时间,实验所处环境、所用设备的型号参数、随机点亮度和速度以及其中所需的医学准备、生物电子学记录等与文献[13, 15]描述的相同。当DS=90°时,实测相应数据如图 5所示,图中右侧为响应值与颜色深度的对应图。
-
针对V1简单细胞的感受野特性,本文采用Von Mises函数描述其方向调谐曲线。Von Mises函数与圆高斯函数类似,它是一种描述方向数据的钟形模型,在生物神经学、天文学、地理学等领域有着重要的作用[16]。V1细胞的PD方向与接收的刺激方向形成一个类似钟形的感受野模型,当刺激方向与PD方向一致时,调谐曲线达到最大值。这与Von Mises函数的吻合度较高。首先定义参数调谐带宽控制系数a,其表达式为:
$$ a = \frac{1}{{{\rm{T}}{{\rm{W}}^2}}} $$ (1) 式中,TW为方向调谐带宽,即细胞的最大响应与最小响应之差的一半所对应的宽度[17]。当TW越大时,a越小。V1细胞方向调谐曲线为:
$$ {R_n}({t_i}) = {{\rm{e}}^{a[\cos ({D_i} - {S_i}) - 1]}} $$ (2) 式中,Si为随机点刺激的运动方向;Di为V1细胞的PD方向。图 6为V1细胞方向调谐曲线简图。
从图 6可以看出,由对于细胞而言,当刺激运动方向Si与PD方向Di一致时,调谐曲线达到最大值,此时细胞呈兴奋状态;当刺激运动方向与PD方向相反,即相差180°时,调谐曲线达到最小值,此时细胞呈抑制状态。而这与生理学研究结果保持一致[9]。
V1简单细胞的响应由刺激T(Si, ti)和方向调谐曲线Rn(ti)的内积计算得到,即:
$$ {L_n}({t_i}) = \sum\limits_m {{R_m}({t_i})T({S_i},{t_i})} $$ (3) 结合非线性的能量模型[18],进行非调谐正则化操作,得到:
$$ {P_n}({t_i}) = \frac{{{L_n}^2({t_i})}}{{\sum\limits_k {{L_k}^2({t_i}) + {\sigma _1}^2} }} $$ (4) 由于非调谐正则化对V1细胞方向感知能力表征不足,故采取调谐正则化,即结合静态非线性的自正则化(self-normalization)操作。得到V1复杂细胞的响应为:
$$ {V_n}({t_i}) = \frac{{{P_n}({t_i})}}{{{P_n}({t_i}) + {\sigma _2}}} $$ (5) 式中,σ1和σ2为极小的正值常数,以避免“白墙”问题,导致分母为零的情况。
在MT阶段,由图 2所示的感受野层级特性,V1-MT之间的连接采用前馈级联方法,即:
$$ M({t_i}) = \sum\limits_k {{w_k}{V_k}({t_j})} $$ (6) 得到MT细胞的响应。为准确获取式(6) 中的权值系数wk,采用岭回归(ridge regression)方法,根据V1复杂细胞的响应及实验中恒河猴的MT细胞响应,定义该系数的误差:
$$ E(\boldsymbol{w}) = {\left\| {{\boldsymbol{V}_w} - {\boldsymbol{M}_r}} \right\|^2} + \lambda {\left\| \boldsymbol{w} \right\|^2} $$ (7) 式中,w是权值系数wk的向量形式;V是由V1的输出响应数据构成的矩阵,矩阵中的各行代表V1的输出响应;Mr为实验中记录的恒河猴MT输出响应向量;λ为岭参数,是一个极小的正值常数。
为求式(7) 的最小值,对其求导,并令导数为零,得:
$$ \boldsymbol{w} = {({\boldsymbol{V}^{\rm{T}}}\boldsymbol{V} + \lambda \boldsymbol{I})^{ - 1}}{\boldsymbol{V}^{\rm{T}}}{\boldsymbol{M}_r} $$ (8) 式中,I为单位矩阵。由w获得最佳权值系数wk,将wk代入式(6) 即可求出本文模型的MT输出响应。
Motion Feature Extraction of Random-Dot Video Sequences with the Visual Cortex Mechanism
-
摘要: 为了探索视皮层对多方向刺激的运动信息处理机制,依据生物实验中部分中颞叶区(MT)细胞对随机点视频刺激运动感知的侧偏特性,提出了一种仿视皮层机制的随机点视频序列运动特征提取模型。首先,采用Von Mises函数拟合初级视皮层(V1)简单细胞的感受野,再结合非线性的能量模型、调谐和非调谐正则化方法等模拟实现V1复杂细胞对运动信息的方向感知;其次,提出了级联前馈方法对V1复杂细胞响应进行线性加权求和,得到MT细胞的响应输出;最后,利用生物实测MT细胞响应数据对新模型的有效性进行了实验验证。仿真结果表明模型的输出结果与恒河猴的运动感知实验数据基本吻合,能够较好地模拟视皮层对不同夹角的多方向随机点视频序列的运动感知机制,为提取复杂运动序列的特征提供新的方法,进而为视觉类脑计算奠定基础。Abstract: According to side-bias characteristics of motion perception towards random-dot video stimuli among some middle temporal cortex (MT) cells in the experiment, a model for motion feature extraction of random-dot video sequences with the visual cortex mechanism is proposed for exploring the visual cortex mechanism underlying multi-direction motion information processing. First, Von Mises function is used to model receptive fields of simple cells in primary visual cortex (V1). A nonlinear energy model unturned and tuned normalization operation is adopted to simulate the direction perception of V1 complex cells; then, with the feedforward and cascade method, the responses of V1 model are pooled through a set of linear weights, thus giving rise to the responses of MT cells. The simulation results are generally consistent with the experimental data of rhesus monkeys. It can model the motion perception and feature extraction mechanism underlying multi-direction random-dot video sequences at different direction separations in visual cortex. So that it can provide new ideas for extracting features of complex motion sequences and lay the foundation for the visual brain-like computation for the further step.
-
Key words:
- middle temporal cortex(MT) /
- motion feature /
- motion perception /
- side-bias /
- visual cortex
-
[1] POO M, DU J, IP N Y, et al. China brain project:basic neuroscience, brain diseases, and brain-inspired computing[J]. Neuron, 2016, 92(3):591-596. doi: 10.1016/j.neuron.2016.10.050 [2] DANUSER G. Computer vision in cell biology[J]. Cell, 2011, 147(5):973-978. doi: 10.1016/j.cell.2011.11.001 [3] 寿天德.视觉的神经基础[J].自然杂志, 2015, 37(1):17-25. http://www.cnki.com.cn/Article/CJFDTOTAL-ZRZZ201501005.htm SHOU Tian-de. Neuronal basis of vision[J]. Chinese Journal of Nature, 2015, 37(1):17-25. http://www.cnki.com.cn/Article/CJFDTOTAL-ZRZZ201501005.htm [4] SIMONCELLI E P, HEEGER D J. A model of neuronal responses in visual area MT[J]. Vision research, 1998, 38(5):743-761. doi: 10.1016/S0042-6989(97)00183-1 [5] JOUKES J, HARTMANN T S, KREKELBERG B, et al. Motion detection based on recurrent network dynamics[J]. Frontiers in Systems Neuroscience, 2014, 8:239-239. https://www.researchgate.net/publication/269167833_Motion_Detection_Based_on_Recurrent_Network_Dynamics [6] SOLARI F, CHESSA M, MEDATHATI N V K, et al. What can we expect from a V1-MT feedforward architecture for optical flow estimation?[J]. Signal Processing:Image Communication, 2015, 39:342-354. doi: 10.1016/j.image.2015.04.006 [7] CHESSA M, SABATINI S P, SOLARI F, et al. A systematic analysis of a V1-MT neural model for motion estimation[J]. Neurocomputing, 2016, 173:1811-1823. doi: 10.1016/j.neucom.2015.08.091 [8] AN X, GONG H, MCLOUGHLIN N, et al. The mechanism for processing random-dot motion at various speeds in early visual cortices[J]. PLOS ONE, 2014, 9(3):1-22. https://www.research.manchester.ac.uk/portal/en/publications/the-mechanism-for-processing-randomdot-motion-at-various-speeds-in-early-visual-cortices(01266367-c527-4c27-a7f7-a9078f0590ed)/export.html [9] 邹洪中, 许悦雷, 马时平, 等.基于视皮层V1模型的随机点视频序列运动特征提取[J].计算机应用, 2016, 36(6):1677-1681. doi: 10.11772/j.issn.1001-9081.2016.06.1677 ZOU Hong-zhong, XU Yue-lei, MA Shi-ping, et al. Motion feature extraction of random-dot video suquences based on V1 model of visual cortex[J]. Journal of Computer Applications, 2016, 36(6):1677-1681. doi: 10.11772/j.issn.1001-9081.2016.06.1677 [10] MAHMOODI S, SABA N. Nonlinear model for complex neurons in biological visual visions[C]//International Conference on Bio-Inspired Systems and Signal Processing. Rome:Biomedical engineering systems and technologies.[S.l.]:[s.n.], 2016:162-167. [11] LIU L, PACK C. Training alters the causal contribution of area MT to visual motion perception[J]. Journal of Vision, 2016, 16(12):1133. doi: 10.1167/16.12.1133 [12] LUI L L, ROSA M G. Structure and function of the middle temporal visual area (MT) in the marmoset:Comparisons with the macaque monkey[J]. Neuroscience Research, 2015, 93:62-71. doi: 10.1016/j.neures.2014.09.012 [13] XIAO J, HUANG X. Distributed and dynamic neural encoding of multiple motion directions of transparently moving stimuli in cortical area MT[J]. The Journal of Neuroscience, 2015, 35(49):16180-16198. doi: 10.1523/JNEUROSCI.2175-15.2015 [14] JONES E G, POWELL T P S. Connexions of the somatic sensory cortex of the rhesus monkey[J]. Brain, 2016, 93(1):37-56. https://www.ncbi.nlm.nih.gov/pubmed/4979846 [15] XIAO J, NIU Y, WIESNER S, et al. Normalization of neuronal responses in cortical area MT across signal strengths and motion directions[J]. Journal of Neurophysiology, 2014, 112(6):1291-1306. doi: 10.1152/jn.00700.2013 [16] JENISON R L, FISSELL K. A comparison of the von Mises and Gaussian basis functions for approximating spherical acoustic scatter[J]. IEEE Transactions on Neural Networks, 1995, 6(5):1284-1287. doi: 10.1109/72.410375 [17] NAVALPAKKAM V, ITTI L. Attentional modulation of tuning width, preferred features and gains during visual search[J]. Journal of Vision, 2007, 7(9):948-948. https://www.researchgate.net/publication/245616403_Attentional_modulation_of_tuning_width_preferred_features_and_gains_during_visual_search [18] HARTUNG L, KLIMOVSKY A. The glassy phase of the complex branching Brownian motion energy model[J]. Electronic Communications in Probability, 2015, 20(0):1-15. https://www.researchgate.net/publication/275280249_The_glassy_phase_of_the_complex_branching_Brownian_motion_energy_model