留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

仿视皮层机制的随机点视频序列运动特征提取

许悦雷 吕超 马时平 李帅 邹洪中 张文达 辛鹏

许悦雷, 吕超, 马时平, 李帅, 邹洪中, 张文达, 辛鹏. 仿视皮层机制的随机点视频序列运动特征提取[J]. 电子科技大学学报, 2017, 46(4): 630-635. doi: 10.3969/j.issn.1001-0548.2017.04.025
引用本文: 许悦雷, 吕超, 马时平, 李帅, 邹洪中, 张文达, 辛鹏. 仿视皮层机制的随机点视频序列运动特征提取[J]. 电子科技大学学报, 2017, 46(4): 630-635. doi: 10.3969/j.issn.1001-0548.2017.04.025
XU Yue-lei, LÜ Chao, MA Shi-ping, LI Shuai, ZOU Hong-zhong, ZHANG Wen-da, XIN Peng. Motion Feature Extraction of Random-Dot Video Sequences with the Visual Cortex Mechanism[J]. Journal of University of Electronic Science and Technology of China, 2017, 46(4): 630-635. doi: 10.3969/j.issn.1001-0548.2017.04.025
Citation: XU Yue-lei, LÜ Chao, MA Shi-ping, LI Shuai, ZOU Hong-zhong, ZHANG Wen-da, XIN Peng. Motion Feature Extraction of Random-Dot Video Sequences with the Visual Cortex Mechanism[J]. Journal of University of Electronic Science and Technology of China, 2017, 46(4): 630-635. doi: 10.3969/j.issn.1001-0548.2017.04.025

仿视皮层机制的随机点视频序列运动特征提取

doi: 10.3969/j.issn.1001-0548.2017.04.025
基金项目: 

国家自然科学基金 61372167

国家自然科学基金 61379104

详细信息
    作者简介:

    许悦雷(1975-), 男, 博士, 教授, 主要从事脑认知与智能信息处理方面的研究

  • 中图分类号: TP391;R338

Motion Feature Extraction of Random-Dot Video Sequences with the Visual Cortex Mechanism

图(9)
计量
  • 文章访问数:  5736
  • HTML全文浏览量:  1941
  • PDF下载量:  186
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-11-16
  • 修回日期:  2017-02-24
  • 刊出日期:  2017-07-30

仿视皮层机制的随机点视频序列运动特征提取

doi: 10.3969/j.issn.1001-0548.2017.04.025
    基金项目:

    国家自然科学基金 61372167

    国家自然科学基金 61379104

    作者简介:

    许悦雷(1975-), 男, 博士, 教授, 主要从事脑认知与智能信息处理方面的研究

  • 中图分类号: TP391;R338

摘要: 为了探索视皮层对多方向刺激的运动信息处理机制,依据生物实验中部分中颞叶区(MT)细胞对随机点视频刺激运动感知的侧偏特性,提出了一种仿视皮层机制的随机点视频序列运动特征提取模型。首先,采用Von Mises函数拟合初级视皮层(V1)简单细胞的感受野,再结合非线性的能量模型、调谐和非调谐正则化方法等模拟实现V1复杂细胞对运动信息的方向感知;其次,提出了级联前馈方法对V1复杂细胞响应进行线性加权求和,得到MT细胞的响应输出;最后,利用生物实测MT细胞响应数据对新模型的有效性进行了实验验证。仿真结果表明模型的输出结果与恒河猴的运动感知实验数据基本吻合,能够较好地模拟视皮层对不同夹角的多方向随机点视频序列的运动感知机制,为提取复杂运动序列的特征提供新的方法,进而为视觉类脑计算奠定基础。

English Abstract

许悦雷, 吕超, 马时平, 李帅, 邹洪中, 张文达, 辛鹏. 仿视皮层机制的随机点视频序列运动特征提取[J]. 电子科技大学学报, 2017, 46(4): 630-635. doi: 10.3969/j.issn.1001-0548.2017.04.025
引用本文: 许悦雷, 吕超, 马时平, 李帅, 邹洪中, 张文达, 辛鹏. 仿视皮层机制的随机点视频序列运动特征提取[J]. 电子科技大学学报, 2017, 46(4): 630-635. doi: 10.3969/j.issn.1001-0548.2017.04.025
XU Yue-lei, LÜ Chao, MA Shi-ping, LI Shuai, ZOU Hong-zhong, ZHANG Wen-da, XIN Peng. Motion Feature Extraction of Random-Dot Video Sequences with the Visual Cortex Mechanism[J]. Journal of University of Electronic Science and Technology of China, 2017, 46(4): 630-635. doi: 10.3969/j.issn.1001-0548.2017.04.025
Citation: XU Yue-lei, LÜ Chao, MA Shi-ping, LI Shuai, ZOU Hong-zhong, ZHANG Wen-da, XIN Peng. Motion Feature Extraction of Random-Dot Video Sequences with the Visual Cortex Mechanism[J]. Journal of University of Electronic Science and Technology of China, 2017, 46(4): 630-635. doi: 10.3969/j.issn.1001-0548.2017.04.025
  • 随着欧美等国“脑计划”的实施,类脑计算将成为模式识别和人工智能的优先发展方向之一,其发展可为人工智能等提供新的思路[1]。生物视觉具有计算机视觉不可比拟的优势,其更高效、更准确,且需要的先验知识很少,使得生物视觉的研究成为了一大热门。视觉类脑计算即仿生物视觉信息处理机制的运算,其目的是将生物视觉的巨大优势引入计算机视觉领域,发展由生物启发式的计算机视觉,实现对视觉目标信息的高效处理[2]。对自然图像、复杂运动序列等视觉目标的类脑感知,构建可提取出复杂随机点视频序列运动特征的仿生视觉模型,将是计算机视觉要解决的基本问题之一。人类在感知和认识世界的过程中,有80%以上的信息是通过视觉系统获得[3],视觉系统是绝大多数生物最重要的感觉系统。通过视觉系统,可以获取目标的亮度、色彩、运动方式、形状等物理信息。研究表明,初级视皮层(primary visual cortex, V1) 和中颞叶区(middle temporal cortex, MT)是生物视觉系统处理运动信息最主要的区域,V1作为大脑视皮层中最先接收到视觉信息的区域,对纹理和边缘等信息较为敏感,并能初步感知运动信息,通过MT细胞的进一步整合,则可获取速度和方向等运动信息。

    目前,研究人员基于视皮层机制提出了多种运动特征提取模型,典型的有以下3种。1) HS模型(Heeger and Simoncelli model)[4],该模型V1和MT阶段均对各自输入进行线性加权、矫正和正则化操作。运用不同时空方向的三维滤波器组来模拟具有方向和空间频率选择性的V1简单细胞,再对V1简单细胞的响应加权求和以获取V1复杂细胞的响应,最后通过对V1复杂细胞的输出加权求和来模拟MT细胞的响应;2) RMM模型(recurrent motion model)[5],一种基于递归神经网络的运动检测模型。它依据实验中MT细胞对于偏好方向(preferred direction, PD)和反PD方向响应的实验数据,采用Elman模型,有效模拟了MT神经元对于PD和反PD这一简单方向随机点的运动特征提取能力;3) FFV1MT模型(feedforward V1-MT model)[6],该模型通过三维Gabor时空滤波器模拟简单细胞的感受野,再由V1细胞响应加权组合及正则化模拟得到MT细胞模型,并将其成功地应用于光流估计和运动估计[7]。以上3种模型在一定条件下较好地模拟了视皮层V1和MT区细胞对运动信息的处理机制,可以提取光栅、栅格等连续序列和简单随机点的运动信息,但由于多方向复杂随机点视频序列运动的不连续性和高频特点,以上模型很难模拟视觉皮层对它们的区分性特征提取的能力。

    鉴于此,本文根据生物实验数据,深入探索视皮层V1和MT的感受野特性,构建仿视皮层机制的运动感知模型,并将该模型的仿真结果与恒河猴(rhesus monkeys)的生物实验数据进行比较分析,以论证模型的合理性。本文以一定方向夹角(direction separation, DS)运动的双方向随机点视频序列为输入刺激,对比生物实验中的MT呈侧偏性(side-biased)的细胞响应,在剖析视皮层运动信息处理机理的基础上,建立视觉类脑运动感知模型,实现了对复杂多方向随机点视频序列的运动特征提取。另外,本文对生物视觉系统信息处理机理进行的初步探索,可为类脑计算模型的构建奠定基础,具有一定的开创性。

    • 灵长类动物的视觉系统是一个多层次的复杂神经结构,主要由视网膜、侧膝体(lateral geniculate nucleus, LGN)和视皮层3大部分组成[8]。视皮层包含V1和纹外视皮层,纹外视皮层中较重要的区域有V2、V3、V4、MT,V2接受来自V1的前馈输入,并投射到V3、V4、MT,同时对V1有反馈输入。在人类视觉系统中存在两条通路,均以视网膜为起点,并经过LGN到达V1,如图 1所示。其中一条为背侧通路(dorsal stream),也称Where通路或motion通路,沿着枕顶叶分布,由V1、V2、V3经MT、内上颞叶(medial superior temporal cortex, MST)到达顶叶,主要处理空间和运动信息,实现视觉系统对空间信息和动作信息的具体感知[9];另一条为腹侧通路(ventral stream),也称What通路或form通路,沿着大脑皮质的枕颞叶分布,从枕叶的V1、V2经V4投射到下颞叶(inferior temporal cortex, IT),主要处理颜色、形状和纹理等信息,实现对物体的识别与感知[10]。当前,关于运动感知和特征提取的仿生视觉模型多基于背侧通路,且绝大部分都是围绕V1和MT阶段展开。

      图  1  视皮层两条通路

      V1是生物视觉信息处理的初始区域,其视野集中于局部区域,一般分为简单细胞和复杂细胞两类。简单细胞的感受野呈狭长形,对空间频率及朝向敏感,复杂细胞以简单细胞输出的叠加为输入,其感受野由简单细胞感受野叠加而成,对特定方向的条状刺激敏感。MT具有全局感知的能力,可整合经多V1细胞处理的局部运动信息,其对运动的速率和方向较为敏感,感受野约为V1的100倍左右[11-12]图 2为V1和MT的感受野层级关系。

      图  2  V1和MT感受野层级关系

    • 本文实验是在美国威斯康辛州大学麦迪逊分校的神经科学系,与他人合作完成,相关信息与文献[13]所述相同。生物学研究表明,恒河猴大脑视皮层区与人脑视皮层区相似度达90%以上[14]。实验对象为图 3a所示的两只成年健康的恒河猴。

      图  3  实验对象

      实验中所用刺激为运动的无色差随机点视频序列,在静止的圆形孔径内呈现,并通过显示屏向恒河猴视网膜投影。视频序列中同一方向上的所有点均以相同的速率移动,具有运动一致性。基于控制变量的思维,通过多次给两只恒河猴视网膜投射单一方向或不同DS的随机点视频序列,实时采集响应。DS采取45°、60°、90°、135°等典型度数,具体随机点视频序列刺激如图 4所示。本文将钨电极直接连接视觉皮层MT细胞中的神经元,如图 3b所示,实时采集响应数据。本实验以前200 ms为预备时间,实验所处环境、所用设备的型号参数、随机点亮度和速度以及其中所需的医学准备、生物电子学记录等与文献[13, 15]描述的相同。当DS=90°时,实测相应数据如图 5所示,图中右侧为响应值与颜色深度的对应图。

      图  4  随机点视频刺激

      图  5  实验中MT响应(DS=90°)

    • 针对V1简单细胞的感受野特性,本文采用Von Mises函数描述其方向调谐曲线。Von Mises函数与圆高斯函数类似,它是一种描述方向数据的钟形模型,在生物神经学、天文学、地理学等领域有着重要的作用[16]。V1细胞的PD方向与接收的刺激方向形成一个类似钟形的感受野模型,当刺激方向与PD方向一致时,调谐曲线达到最大值。这与Von Mises函数的吻合度较高。首先定义参数调谐带宽控制系数a,其表达式为:

      $$ a = \frac{1}{{{\rm{T}}{{\rm{W}}^2}}} $$ (1)

      式中,TW为方向调谐带宽,即细胞的最大响应与最小响应之差的一半所对应的宽度[17]。当TW越大时,a越小。V1细胞方向调谐曲线为:

      $$ {R_n}({t_i}) = {{\rm{e}}^{a[\cos ({D_i} - {S_i}) - 1]}} $$ (2)

      式中,Si为随机点刺激的运动方向;Di为V1细胞的PD方向。图 6为V1细胞方向调谐曲线简图。

      图  6  V1简单细胞调谐曲线示意图

      图 6可以看出,由对于细胞而言,当刺激运动方向Si与PD方向Di一致时,调谐曲线达到最大值,此时细胞呈兴奋状态;当刺激运动方向与PD方向相反,即相差180°时,调谐曲线达到最小值,此时细胞呈抑制状态。而这与生理学研究结果保持一致[9]

      V1简单细胞的响应由刺激T(Si, ti)和方向调谐曲线Rn(ti)的内积计算得到,即:

      $$ {L_n}({t_i}) = \sum\limits_m {{R_m}({t_i})T({S_i},{t_i})} $$ (3)

      结合非线性的能量模型[18],进行非调谐正则化操作,得到:

      $$ {P_n}({t_i}) = \frac{{{L_n}^2({t_i})}}{{\sum\limits_k {{L_k}^2({t_i}) + {\sigma _1}^2} }} $$ (4)

      由于非调谐正则化对V1细胞方向感知能力表征不足,故采取调谐正则化,即结合静态非线性的自正则化(self-normalization)操作。得到V1复杂细胞的响应为:

      $$ {V_n}({t_i}) = \frac{{{P_n}({t_i})}}{{{P_n}({t_i}) + {\sigma _2}}} $$ (5)

      式中,σ1σ2为极小的正值常数,以避免“白墙”问题,导致分母为零的情况。

      在MT阶段,由图 2所示的感受野层级特性,V1-MT之间的连接采用前馈级联方法,即:

      $$ M({t_i}) = \sum\limits_k {{w_k}{V_k}({t_j})} $$ (6)

      得到MT细胞的响应。为准确获取式(6) 中的权值系数wk,采用岭回归(ridge regression)方法,根据V1复杂细胞的响应及实验中恒河猴的MT细胞响应,定义该系数的误差:

      $$ E(\boldsymbol{w}) = {\left\| {{\boldsymbol{V}_w} - {\boldsymbol{M}_r}} \right\|^2} + \lambda {\left\| \boldsymbol{w} \right\|^2} $$ (7)

      式中,w是权值系数wk的向量形式;V是由V1的输出响应数据构成的矩阵,矩阵中的各行代表V1的输出响应;Mr为实验中记录的恒河猴MT输出响应向量;λ为岭参数,是一个极小的正值常数。

      为求式(7) 的最小值,对其求导,并令导数为零,得:

      $$ \boldsymbol{w} = {({\boldsymbol{V}^{\rm{T}}}\boldsymbol{V} + \lambda \boldsymbol{I})^{ - 1}}{\boldsymbol{V}^{\rm{T}}}{\boldsymbol{M}_r} $$ (8)

      式中,I为单位矩阵。由w获得最佳权值系数wk,将wk代入式(6) 即可求出本文模型的MT输出响应。

    • 本文所提的视皮层模型中,V1阶段采用Von Mises函数表征V1响应的调谐曲线,并进行调谐和非调谐正则化处理,得到V1复杂细胞的响应,其响应曲线如图 7所示。由图 7可以看出,整体而言,V1复杂细胞在随机点运动的方向响应最大,偏离运动随机点方向响应逐渐变小,这与生物实际是相符的[9]。当DS为45°和60°时,模型对两随机点的区分性较小,此时V1响应呈单峰特性;随着DS的逐渐增大,模型对两随机点的区分能力渐渐增强,当DS为90°和135°时,V1响应呈双峰特性。模型V1阶段基本实现了V1细胞对方向的敏感特性,可较好区分出DS较大的不同随机点视频序列,是整个模型的基础。

      图  7  V1复杂细胞响应

    • 针对生物实验中不同MT细胞响应呈现的特点,文献[13]将采集的响应分为均衡型,双峰型及侧偏型,比例分别为42%、19%、39%,对应3种不同方向选择性的MT细胞。本文主要研究实验结果中的侧偏型细胞。图 8a为本文各响应的对比,从图 8a第一列可以看出,在165 ms后响应逐渐较强,而随着200 ms时刻的随机点视频序列产生,实验中恒河猴的MT细胞响应达到峰值,之后响应整体呈由强到弱的变化规律。整体看来,侧偏特性随着DS的逐渐增大而增强,当DS为45°和60°时,起初呈对称的单峰特性,随时间推移,分别在500 ms和400 ms后逐渐略呈侧偏特性;当DS为90°和135°时,在分别保持100 ms和50 ms左右的双峰特性后,响应渐渐偏向一侧,偏向性较强。实验中各DS响应虽然在侧偏的时间起点及侧偏程度上存在差异,但均偏向同一侧,且DS越大,响应的侧偏特性呈现得越快,侧偏程度越明显;而从图 8a第二列可看出,将两单向随机点刺激分开实验并得到的平均响应呈明显的对称性,无侧偏性,且强度明显小于双方向随机点刺激下的响应;从图 8a第三列看,在预备时间后模型在各DS输出的响应,随时间而逐渐变弱,且均呈现出侧偏特性,在DS为90°和135°时尤为明显。当DS为45°和60°时,前400 ms左右略呈现双峰特性。对比图 8a,本文模型的输出响应与生物实际较为吻合,较两单向随机点平均响应而言,不同DS下均体现出了侧偏特性。实验数据表明侧偏型MT细胞对于多刺激的响应与各分刺激响应的与明显区别。

      图  8  各情况下MT细胞响应

      为直观理解,取800 ms时刻的生物实际响应与本文输出,不同DS下响应曲线如图 8b所示。左侧为生物实验中的响应,右侧为本文模型的输出响应。从图中可看出,各DS情况下,响应曲线均与生物数据相似,本文模型达到较好的模拟效果。

    • 为了实现对模型有效性的量化评估,本文以均方误差来衡量模型的输出响应与生物实验数据的差异。以图 8b中800 ms时刻生物实验数据与模型输出为例,将两条曲线对应的值相减取均值,求出此刻的平均绝对误差。以此类推,求出所有时刻的平均绝对误差,通过运算可获得均方误差,如图 9所示。

      图  9  本文模型的均方误差

      图 9可以看出,在前165 ms,模型的均方误差较小,在0.01以内;在165~210 ms期间,均方误差增加,直至达到峰值0.054,这与视皮层神经细胞在感受突发刺激前后暂态的复杂的随机不稳定性有关;210 ms以后均方误差逐渐减小,且在1 000 ms时已小于0.033,并继续呈减小趋势。结合图 8图 9,可得本文的模型具有鲁棒性,且误差持续性减小,能较好地吻合生物实验数据,反映了视皮层功能特性,描述了生物行为,可对目标的运动特征进行持续性提取。

    • 为准确地模拟出部分MT细胞对不同夹角运动随机点视频序列的响应侧偏特征,本文深入探索生物视觉系统分层分区处理运动信息的机制,提出了一种仿视皮层机理的多方向随机点视频序列运动模型,该模型基于生物实验数据,可有效提取视皮层中部分MT细胞对多方向随机点的运动感知特性,具有一定的开创性。

      然而,当夹角较大时,本文模型输出响应的侧偏程度较生物实验数据略显不足,这与人脑视皮层复杂的神经结构有关,需要对大脑信息处理机制进行进一步探索,特别是视皮层对复杂视频序列的运动特征提取机理,以建立更加完善的仿生视觉运动感知模型。

参考文献 (18)

目录

    /

    返回文章
    返回