使用SMP的超大点数FFT算法研究与实现

钱炳锋; 孙以泽

doi:10.3969/j.issn.1001-0548.2019.01.005

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名

邮箱

手机号码

标题

留言内容

验证码

使用SMP的超大点数FFT算法研究与实现

东华大学机械工程学院上海松江区 201620

基金项目:

上海市教委实验队伍建设计划 14SY08

详细信息

作者简介:
钱炳锋(1982-), 男, 博士生, 主要从事阵列天线方面的研究.E-mail:qbf314403@126.com

中图分类号: TN911.7

摘要: 该文通过分析对称多处理器（SMP）并行处理系统的特点，提出了一种适用于SMP的超大点数FFT快速算法。该算法采取限定序列划分规则、改变铰链因子计算方法和优化数据分布及存储访问等手段，大大减少了对存储资源的依赖，并提升了FFT的执行性能。实测结果表明，该算法适用于SMP平台，有效地解决了单核处理器较难高效实现超大点数FFT的问题。

关键词:

Abstract: Through analyzing the characteristics of symmetric multi-processor (SMP) parallel processing system, a very large fast fourier transform (FFT) algorithm is proposed. This algorithm significantly reduces the dependence on memory and improves FFT's performance by taking the limited rules of one-dimensional sequence split, changing the twiddle factor calculation method, and optimizing the data distribution and storage access. Experiment results show that the algorithm is suitable for SMP platform and can effectively solve the problem of very large FFT, which single-core processor harder to realize.

Key words:

存储空间

存储资源(复数点)

存储类型

输入/输出数据空间

DDR

旋转因子空间

片内SRAM

铰链因子空间

片内SRAM

“乒乓”缓存空间

4QN

MSM

总需求存储资源

L+(4Q+2)N

——

点数

本文

文献[4]

8 192

0.062 330

——

16 384

0.129 746

0.131

32 768

0.189 187

0.198

65 536

0.313 758

0.315

131 072

0.629 758

0.641

262 144

1.186 272

1.386

524 288

2.836 328

3.103

1 048 576

4.664 122

6.507

点数

本文

文献[4]

8 192

162

16 384

162

290

32 768

324

580

65 536

580

1 092

131 072

1 160

2 184

262 144

2 184

4 232

524 288

4 368

8 464

1 048 576

8 464

16 656

使用SMP的超大点数FFT算法研究与实现

东华大学机械工程学院上海松江区 201620

基金项目:

上海市教委实验队伍建设计划 14SY08

作者简介:
钱炳锋(1982-), 男, 博士生, 主要从事阵列天线方面的研究.E-mail:qbf314403@126.com

收稿日期: 2017-09-06

修回日期: 2018-03-15

刊出日期: 2019-01-30

中图分类号: TN911.7

关键词:

全文HTML

快速傅里叶变换(FFT)是雷达信号处理的关键技术，FFT的执行效率关系到系统的处理性能。近年来高分辨、大带宽相控阵雷达系统的快速发展，使得FFT计算点数大幅度的增加，带来了FFT计算面临处理器资源有限和执行效率降低这两大问题，直接影响了雷达系统的研制进度。

现有FFT算法大都基于单核处理器进行研究，很少有文献涉及适用于对称多处理器(symmetric multiprocessor, SMP)的超大点数FFT算法研究，但现有研究仍值得本文借鉴。文献[1]给出基于GPU分块的FFT算法，解决了图像容量较大引起的内存溢出问题，对于雷达系统中采用SMP计算FFT具有一定参考，但该算法很难移植到其他的多核处理器平台。文献[2]在DSP芯片上设计实现了一个基于矩阵转置操作的高能效FFT加速器，采用多种并行策略、混合旋转因子产生策略和“乒乓”结构多数据存储器来提升FFT加速性能和计算效能。文献[3]针对现代超标量结构处理器建模分析，最终实现了一种基于cache优化的高效FFT映射方法，该方法将FFT进行拆分，发挥了cache的作用进而提高了处理的性能，其cache优化策略和FFT拆分方法具有参考意义。文献[4]针对多核处理器实现了大点数FFT算法分解和并行优化，验证了多核DSP处理器的运算性能，但是该算法引入加权旋转因子，同时存在多次显性转置，降低了FFT计算实时性。目前芯片技术的发展已经不能适应摩尔定律和突破功率墙的限定，单核处理器性能已接近极限值，为了追求更高的处理性能，各芯片厂商采取在相同的面积上集成更多的处理器核。SMP汇集了一组处理器，它是应用十分广泛的并行技术，同时SMP芯片作为雷达信号处理芯片逐渐普及，因此，研究一种适合SMP的超大点数FFT算法，对于提升雷达系统的信号处理性能十分必要。

本文通过分析SMP并行处理系统架构特点，给出一种适用于SMP的超大点数FFT算法。该算法采取限定一维序列划分规则，最大限度降低复数乘加运算量，并改变乘铰链因子方法，减少了对存储资源的依赖，同时优化数据分布和存储访问来隐藏显性转置，最后将算法映射到TMS320C6678多核DSP处理平台。实测结果表明，该算法适用于SMP平台，能够解决单核处理器较难实现超大点数FFT的问题，并在FFT存储资源利用和执行性能上均有提升。

4. 结束语

本文针对现有FFT算法不适用SMP并行处理平台的问题进行分析，提出了改进型超大点数FFT算法。通过优化行列划分规则来最大程度的减少了复数乘加运算量，并改变了铰链因子计算方法，优化了数据分布和存储访问，降低了存储资源开销，给出了改进后的算法实现流程。实验对比结果表明，本映射算法适用于SMP系统，能够节省约1/2的存储资源，提升了大点数FFT处理速度，可用于改善高分辨率大带宽雷达信号处理系统的实时性。

参考文献 (10)

[1]	杨雪, 李学友, 李家国, 等.基于GPU和分块技术的巨幅影像快速傅里叶变换算法研究[J].光谱学与光谱分析, 2014(2):498-504. doi: 10.3964/j.issn.1000-0593(2014)02-0498-07 YANG Xue, LI Xue-you, LI Jia-guo, et al. Research on fast fourier transforms algorithm of huge remote sensing image technology with GPU and partitioning technology[J]. Spectroscopy and Spectral Analysis, 2014(2):498-504. doi: 10.3964/j.issn.1000-0593(2014)02-0498-07
[2]	雷元武, 陈小文, 彭元喜. DSP芯片中的高能效FFT加速器[J].计算机研究与发展, 2016, 7:1438-1446. doi: 10.7544/issn1000-1239.2016.20160123 LEI Yuan-wu, CHEN Xiao-wen, PENG Yuan-xi. A high energy efficiency FFT accelerator on DSP chip[J]. Journal of Computer Research and Development, 2016, 7:1438-1446. doi: 10.7544/issn1000-1239.2016.20160123
[3]	高立宁, 朱亮, 刘腾飞, 等.基于超标量处理器的高效FFT映射方法[J].北京理工大学学报, 2016, 9:940-946. http://d.old.wanfangdata.com.cn/Periodical/bjlgdxxb201609011 GAO Li-ning, ZHU Liang, LIU Teng-fei, et al. An efficient FFT-mapping method based on superscalar processor[J]. Transactions of Beijing Institute of Technology, 2016, 9:940-946. http://d.old.wanfangdata.com.cn/Periodical/bjlgdxxb201609011
[4]	袁琪, 杨康, 周建江, 等.大点数FFT算法C6678多核DSP的并行实现[J].电子测量技术, 2015, 38(2):74-80. doi: 10.3969/j.issn.1002-7300.2015.02.017 YUAN Qi, YANG Kang, ZHOU Jian-jiang, et al. Implementation of large points FFT based on C6678 multi-core DSP[J]. Electronic Measurement Technology, 2015, 38(2):74-80. doi: 10.3969/j.issn.1002-7300.2015.02.017
[5]	VINOGRADOVV I. Advanced high-performance computer system architectures[J]. Nuclear Instruments & Methods in Physics Research, 2007, 571(1-2):429-432. http://d.old.wanfangdata.com.cn/NSTLQK/NSTL_QKJJ026831269/
[6]	NADER B, HAMID S. High-performance computing system architectures:design and performance[Editorial] [J]. Iet Computers & Digital Techniques, 2012, 6(5):257-258. http://d.old.wanfangdata.com.cn/Periodical/dqkx201512014
[7]	ZHU Yong-zhi, ZHANG Dan-dan, CAO Bao-xiang, et al. Research of parallel programming techniques of hierarchical model based on SMP clusters[J]. Acta Electronica Sinica, 2012, 40(11):2206-2210. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dianzixb201211011
[8]	TAM D, AZIMI R, STUMM M. Thread clustering:Sharing-aware scheduling on SMP-CMP-SMT multiprocessors[J]. Acm Sigops Operating Systems Review, 2007, 41(3):47-58. doi: 10.1145/1272998
[9]	王世一.数字信号处理[M].北京:北京理工大学出版社, 1997:123-131. WANG Shi-yi. Digital signal processing[M]. Beijing:Beijing Institute of Technology Press, 1997:123-131.
[10]	Texas Instruments. TMS320C6678 multicore fixed and floating-point digital signal processor[EBOL]. [2017-10-11]. http://www.ti.com.cn/lsds/ti_zh/processors/dsp/c6000_dsp/c66x/overview.page, 2016.

[1]	邹宁, 金杨超, 郭成, 陶杉, 宋海. 基于EMD的井中雷达信号预处理 . 电子科技大学学报, 2022, 51(6): 875-883. doi: 10.12178/1001-0548.2021379
[2]	黄驿轩, 胡苏, 叶启彬, 胡泽林. 基于连续波的通信雷达一体化距离处理分析 . 电子科技大学学报, 2022, 51(5): 688-693. doi: 10.12178/1001-0548.2021246
[3]	李龚亮, 敬思远, 郭兵, 沈艳. 基于图形处理器的并行遗传过程挖掘 . 电子科技大学学报, 2019, 48(6): 918-924. doi: 10.3969/j.issn.1001-0548.2019.06.017
[4]	范阿冬, 秦晓卫, 戴旭初. 基于矢量处理器的可编程并行MIMO检测器设计 . 电子科技大学学报, 2016, 45(3): 337-343. doi: 10.3969/j.issn.1001-0548.2016.02.004
[5]	郭畅, 沈晴霓, 吴中海. 防止数据泄露的云存储数据分布优化模型 . 电子科技大学学报, 2016, 45(1): 118-122. doi: 10.3969/j.issn.1001-0548.2016.01.020
[6]	曹晓东, 石寅, 张雪莲, 张强. 用于802.11p的低功耗紧凑型FFT处理器的研究 . 电子科技大学学报, 2015, 44(5): 680-683. doi: 10.3969/j.issn.1001-0548.2015.05.007
[7]	刘啸滨, 郭兵, 沈艳, 朱建, 王继禾, 伍元胜. 基于ARM处理器的嵌入式软件能耗统计模型 . 电子科技大学学报, 2012, 41(5): 770-774. doi: 10.3969/j.issn.1001-0548.2012.05.024
[8]	朱永金, 成友才. 应用于语音信号处理的FPGA并行访问设计 . 电子科技大学学报, 2012, 41(1): 158-160. doi: 10.3969/j.issn.1001-0548.2012.01.030
[9]	李良, 黄廷祝. 对称不定线性系统的不定预处理技术 . 电子科技大学学报, 2011, 40(2): 288-291. doi: 10.3969/j.issn.1001-0548.2011.02.026
[10]	陈晖, 易克初, 李文铎. 高速数字解调中的并行处理算法 . 电子科技大学学报, 2010, 39(3): 340-345. doi: 10.3969/j.issn.1001-0548.2010.03.003
[11]	钱艺, 王沁, 吴巍, 刘金龙. 神经网络并行MIMD处理器的研究及实现 . 电子科技大学学报, 2008, 37(6): 904-907.
[12]	乔树山, 黑勇, 吴斌, 王晓琴. 块浮点FFT处理器的有限字长效应分析 . 电子科技大学学报, 2008, 37(1): 58-60.
[13]	桑楠, 李保宇, 马红. 多处理器的节能调度算法 . 电子科技大学学报, 2008, 37(1): 116-119.
[14]	郑洪, 肖先赐. MUSIC算法在高速并行处理机上的实现 . 电子科技大学学报, 2005, 34(6): 759-762.
[15]	韩亮, 李莺, 张馨, 陈杰. 高性能可重构DSP处理器的数据通路设计 . 电子科技大学学报, 2005, 34(2): 194-197.
[16]	王宇舟, 金声震. 基于FPGA的高速图像预处理系统设计 . 电子科技大学学报, 2005, 34(1): 12-15.
[17]	杜川华, 龚耀寰. LFMCW雷达的距离/多普勒处理 . 电子科技大学学报, 2004, 33(1): 27-30.
[18]	张凤荔, 何兴高, 秦志光, 周明天. 移动对象数据处理系统的体系结构 . 电子科技大学学报, 2004, 33(2): 175-179.
[19]	肖国强, 向敬成, 胡美莉. 无人机载3mm波脉冲雷达信号处理系统 . 电子科技大学学报, 1999, 28(3): 243-246.
[20]	林水生, 黄顺吉. 一种合成孔径雷达成像处理的并行算法 . 电子科技大学学报, 1998, 27(1): 1-4.

留言板