基于语义的Android敏感行为静态分析方法

董航; 刘洋; 李承泽; 付戈; 张淼; 杨义先

doi:10.3969/j.issn.1001-0548.2017.02.019

基于语义的Android敏感行为静态分析方法

doi: 10.3969/j.issn.1001-0548.2017.02.019

1.
北京邮电大学信息安全中心北京海淀区 100876
2.
国家计算机网络应急技术处理协调中心北京朝阳区 100029

基金项目:

国家自然科学基金 61302087

国家科技支撑计划 2012BAH06B02

教育部博士点基金 20120005110017

详细信息

作者简介:
董航 (1986-), 男, 博士, 主要从事软件安全和移动互联网安全方面的研究

中图分类号: TP309.5

Semantic-Based Sensitive Behavior Analysis Method for Android

1.
Information Security Center, Beijing University of Posts and Telecommunications Haidian Beijing 100876
2.
National Computer Network Emergency Response Technical Team/Coordination Center of China Chaoyang Beijing 100029

摘要: 提出一种基于语义的Android敏感行为静态分析方法。该方法首先基于样本统计结果，利用精简Dalvik指令集作为本文分析的中间语言，实现对指令层的形式化语义描述；之后，基于中间语言发现检测样本中的敏感调用，并通过控制依赖关系追溯调用路径；最后，在控制流分析基础上，对存在敏感调用的路径约束求解路径条件。最终求解出具体后台行为及触发条件，揭示出样本后台行为的执行全过程。该方法缓解了符号执行中的路径爆炸问题，实验验证了该方法可以有效地对移动应用后台行为进行分析，并及时获取特征检测无法发现的未知移动恶意应用程序。
- Android /
- 行为分析 /
- 约束求解 /
- 形式化描述
Abstract: This paper proposes a semantic-based sensitive behavior analysis method for Android. With sample statistics results, the method firstly adopts a simple-Dalvik intermediate language (SDIL) as the intermediate language for text analysis, thus giving a symbolic semantics description for instructions. Then the method uses SDIL to detect sensitive calls from the samples and traces the call paths according to the control dependence. Then based on control-flow analysis, the method adopts constraint solving to obtain path conditions. At last, the method finds the background behaviors with trigger conditions, thus the whole process of background behavior execution will be showed as well. This method can release the path explosion problem in the process of symbolic execution. With experiment under our platform, it proves that the method can analyze the background behaviors of mobile application efficiently, and find the unknown mobile malicious applications which can not be found by traditional feature detection methods in time.
- Android /
- behavior analysis /
- constraint solve /
- formal description

图 1 检测模型

下载: 全尺寸图片幻灯片

图 2 函数调用关系图示例

下载: 全尺寸图片幻灯片

图 3 SDIL指令及对应控制流图

下载: 全尺寸图片幻灯片

图 4 检测工具所检测的发送短信行为

下载: 全尺寸图片幻灯片

表 1 与敏感调用相关的调用路径

编号	路径
1	start-(FuncB-FuncD-FuncE)^circle
2	FuncZ-(FuncB-FuncD-FuncE)^circle
3	FuncZ-FuncF-FuncE

下载: 导出CSV

表 2 路径优化比例

编号	文件大小/KB	指令条数	路径优化	数据流优化
1	191 288	18 789	2 634	2 123
2	527 892	49 616	5 213	4 011
3	144 680	14 471	866	632
4	357 708	41 565	2 997	2 823
5	234 188	23 130	2 311	2 178
总计	1 455 756	147 571	14 021	11 767

下载: 导出CSV

[1]	工信部国家互联网应急中心. 2013年我国互联网网络安全态势综述[EB/OL].[2014-03-20]. http://www.199it.com/archives/206597.html. CNCERT. Overview of 2013 China's Internet network security situation[EB/OL].[2014-03-20]. http://www.199it.com/archives/206597.html.
[2]	DAGON D, MARTIN T, STARNER T. Mobile phones as computing devices:the viruses are coming![J]. Pervasive Computing, 2004, 3(4):11-15. doi: 10.1109/MPRV.2004.21
[3]	CHEUNG J, WONG S, YANG H, et al. Smartsiren:Virus detection and alert for smartphones[C]//Proc of the 5th Int Conf on Mobile Systems, Applications and Services. New York:ACM, 2007:258-271.
[4]	SHABTAI A, FLEDEL Y, KANONOV U, et al. Google Android:a state-of-the-art review of security mechanisms[EB/OL].[2014-03-20]. http://www.docin.com/p-189587298.html.
[5]	SCHMIDT A D, BYE R, SCHMIDT H G, et al. Static analysis of executables for collaborative malware detection on Android[C]//ICC'09 IEEE Int Conf on Communications.[S.l.]:IEEE, 2009:1-5.
[6]	DESNOS A. Android:Static analysis using similarity distance[C]//201245th Hawaii Int Conf on System Science (HICSS). Los Alamitos:IEEE Computer Society, 2012:5394-5403.
[7]	李挺, 董航, 袁春阳, 等.基于Dalvik指令的Android恶意代码特征描述及验证[J].计算机研究与发展, 2014, 51(7):1458-1466. http://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201407009.htm LI Ting, DONG Hang, YUAN Chun-yang, et al. Description of android malware feature based on dalvik instructions[J]. Journal of Computer Research and Development, 2014, 51(7):1458-1466. http://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201407009.htm
[8]	王蕊, 冯登国, 杨轶, 等.基于语义的恶意代码行为特征提取及检测方法[J].软件学报, 2012(2):378-393. http://www.cnki.com.cn/Article/CJFDTOTAL-RJXB201202018.htm WANG Rui, FENG Deng-guo, YANG-Yi, et al. Semanticsbased malware behavior signature extraction and detection method[J]. Journal of Software, 2012(2):378-393. http://www.cnki.com.cn/Article/CJFDTOTAL-RJXB201202018.htm
[9]	SIVERONI I A. Operational semantics of the java card virtual machine[J]. The Journal of Logic and Algebraic Programming, 2004, 58(1):3-25. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.12.5662
[10]	MIRZAEI N, MALEK S, PASAREANU C S, et al. Testing Android apps through symbolic execution[J]. Sigsoft Softw Eng Notes, 2012, 37(6):1-5. http://dl.acm.org/citation.cfm?doid=2382756.2382798
[11]	KARLSEN HS, WOGENSEN ER, OLESEN MC, et al. Study, formalisation, and analysis of Dalvik bytecode[C]//Proc of the Seventh Workshop on Bytecode Semantics, Verification, Analysis and Transformation (BYTECODE 2012). Tallinn:ETAPS, 2012.

[1]	王璞, 肖健和, 李明伦, 郭宝. 地铁乘客站点的选择行为分析及预测 . 电子科技大学学报, 2022, 51(4): 623-629. doi: 10.12178/1001-0548.2022031
[2]	张林兵, 郭强, 吴行斌, 梁耀洲, 刘建国. 基于多维行为分析的用户聚类方法研究 . 电子科技大学学报, 2020, 49(2): 315-320. doi: 10.12178/1001-0548.2018212
[3]	孙海泳, 杨霞, 雷航, 乔磊, 杨拯. 基于TrustZone的TEE设计与信息流形式化验证 . 电子科技大学学报, 2019, 48(2): 259-263. doi: 10.3969/j.issn.1001-0548.2019.02.016
[4]	王军, 夏利民. 基于因果分析的群体行为识别 . 电子科技大学学报, 2018, 47(2): 256-261. doi: 10.3969/j.issn.1001-0548.2018.02.015
[5]	邵国林, 陈兴蜀, 尹学渊, 叶晓鸣. 基于流量结构稳定性的服务器网络行为描述:建模与系统 . 电子科技大学学报, 2017, 46(1): 102-108. doi: 10.3969/j.issn.1001-0548.2017.01.016
[6]	许志良, 邓承志, 张运生. 非局域自相似约束的Shearlet稀疏正则化图像恢复 . 电子科技大学学报, 2016, 45(1): 43-47. doi: 10.3969/j.issn.1001-0548.2016.01.006
[7]	杨宏宇, 唐瑞文. 基于耗电分析的Android平台恶意软件检测 . 电子科技大学学报, 2016, 45(6): 981-985. doi: 10.3969/j.issn.1001-0548.2016.06.018
[8]	宋竹, 秦志光, 罗嘉庆, 张悦涵. 电信数据中用户行为特征测量与分析 . 电子科技大学学报, 2015, 44(6): 934-939. doi: 10.3969/j.issn.1001-0548.2015.06.024
[9]	卢扬, 樊超, 韩筱璞, 荣智海. 签到行为的可预测性及影响因素分析 . 电子科技大学学报, 2015, 44(2): 163-171. doi: 10.3969/j.issn.1001-0548.2015.02.001
[10]	韩丽霞. 求解约束优化问题的混沌类电磁算法 . 电子科技大学学报, 2014, 43(2): 278-281. doi: 10.3969/j.issn.1001-0548.2014.02.023
[11]	吴劲, 陈志慧. 基于Event-B的形式化建模关键技术研究 . 电子科技大学学报, 2014, 43(3): 405-408. doi: 10.3969/j.issn.1001-0548.2014.03.015
[12]	段林涛, 郭兵, 沈艳, 王毅, 张文丽, 熊伟. Android应用程序能耗分析与建模研究 . 电子科技大学学报, 2014, 43(2): 272-277. doi: 10.3969/j.issn.1001-0548.2014.02.022
[13]	赵天磊, 唐遇星, 齐树波, 付桂涛, 贾小敏, 张民选. 高准确率的应用程序行为分析方法 . 电子科技大学学报, 2011, 40(6): 927-932. doi: 10.3969/j.issn.1001-0548.2011.06.023
[14]	张靖, 何发镁, 邱云. 个性化推荐系统描述文件攻击检测方法 . 电子科技大学学报, 2011, 40(2): 250-254. doi: 10.3969/j.issn.1001-0548.2011.02.019
[15]	陈文宇, 向涛, 王晓斌, 桑楠, 孙世新. 实时可信服务的构件设计与形式化描述 . 电子科技大学学报, 2011, 40(1): 122-127. doi: 10.3969/j.issn.1001-0548.2011.01.023
[16]	杨珺, 曹阳, 马秦生, 王敏. 人工免疫行为轮廓取证分析方法 . 电子科技大学学报, 2010, 39(6): 911-914,919. doi: 10.3969/j.issn.1001-0548.2010.06.022
[17]	黄大贵, 邹学军, 廖细明. 用Pro/E对过约束运动平台动态仿真分析研究 . 电子科技大学学报, 2009, 38(6): 1042-1046. doi: 10.3969/j.issn.1001-0548.2009.06.032
[18]	傅强, 刘晓东. 多媒体呈现流程的形式化描述及内容表示 . 电子科技大学学报, 2008, 37(5): 753-756.
[19]	王聪, 王智学, 江光杰. 基于ECA规则的业务行为描述方法 . 电子科技大学学报, 2006, 35(1): 104-107.
[20]	袁丁, 范平志. 电子证据与反拒认协议及形式化分析 . 电子科技大学学报, 2004, 33(5): 531-534.

点击查看大图

图(4) / 表(2)

计量

文章访问数: 4350
HTML全文浏览量: 1182
PDF下载量: 259
被引次数: 0

全文HTML

近年来，在诸多移动平台中，针对Android平台的恶意程序比例迅速攀升，数量呈爆发式增长^[1]。新增的移动恶意程序中，Android平台占据了绝大多数，增长率超过了33%，远远大于传统的桌面平台，从而导致移动应用安全形势异常严峻。

基于终端的恶意程序的发展过程有着清晰的脉络。在Symbian系统上，文献[2]在2004年最早揭示了手机病毒，引起了人们对移动平台软件安全分析的逐步重视。2007~2009年间，文献[3-4]相继研究了智能手机的病毒特征，对智能手机系统结构和安全机制进行了分析，并提出了一种病毒检测及预警系统。随后文献[5]在Android应用分析中引入了自组织网络中的分布式计算机制，提高了分析效率。与此同时，Android平台著名应用分析工具Androguard利用归一化压缩距离 (normalized compression distance, NCD) 进行Android的应用程序相似性分析^[6]，以压缩特征判断恶意软件。进一步，文献[7]以此为基础，从Davlik指令层面提取恶意软件特征。但这些方法大部分都是针对应用自身特征，难以识别含有未知特征的样本，从而引起漏报。

基于语义的检测方法的提出为更好地检测未知恶意软件提供了支撑，桌面平台下已有部分研究人员开展了相关研究，并取得了较好的效果^[7]，但是移动平台下的研究才刚刚开始。在与移动平台语义检测相关的工作中，文献[8]最早通过对指令和成员的符号描述，将符号计算应用于Java card虚拟机中；文献[9]借助于Java分析工具Java pathfinder，将符号执行机制引入Android源代码分析中，自动化地分析Android源码中的缺陷，但是，其分析目标是程序源码，并不能对Android应用程序中Dalvik字节码进行检测。文献[10]在分析应用程序缺陷时对Android Dalvik指令进行了符号描述，但该分析方法主要面向缺陷分析，在分析应用的恶意行为时效率不高。

为了解决Android平台恶意代码分析问题，识别应用程序敏感行为，发现未知的恶意应用，本文在总结几种现有的智能终端应用程序分析方法和工具的基础上，提出了一种基于语义的Android应用行为检测方法，通过分析测试样本中的后台行为及其触发条件，从而更准确地识别未知的恶意程序。

2. 精简Dalvik指令集

为了减轻符号计算中语义描述的工作量，提高分析效率，本文对3 000个Android样本中的所有指令分布情况进行统计分析，结合指令的实际执行结果，在保留Dalvik指令集的基础上，总结出一个以Dalvik指令为基础，包含了13条指令的精简指令集作为本文分析的中间语言，称此指令集为SDIL，具体语法如下：

$$ \begin{array}{l} A:: = \langle {{\mathop{\rm cls}\nolimits} ^ * }, {\rm{fl}}{{\rm{d}}^ * }, {\rm{mt}}{{\rm{d}}^ * }, {\rm{st}}{{\rm{r}}^ * }\rangle \\ {\rm{cls:: = class str(ext}}@{\rm{tid}}{)^?}{{\rm{(imp@ti}}{{\rm{d}}^ * }{\rm{)}}^{\rm{?}}}\{ @{\rm{fi}}{{\rm{d}}^ * }{\rm{mt}}{{\rm{d}}^ * }\} \\ {\rm{fld:: = field str:@tid}}\\ {\rm{mtd:: = }}@{\rm{mid}} \leftarrow {\rm{method str:@ti}}{{\rm{d}}^ * }{\rm{\{ mbody\} }}\\ {\rm{mbody:: = }} \cdot | {\rm{stm}}{{\rm{t}}^*}\\ {\rm{stmt:: = move}} {\rm{reg}} {\rm{reg | return exp | const}} {\rm{reg exp |}}\\ \;\;\;\;\;\;\;\;{\rm{goto exp}} {\rm{|}} {\rm{if reg}} {\rm{RelOp}} {\rm{reg exp |}} {\rm{BN}} |{\rm{ UN |}}\\ \;\;\;\;\;\;\;\;{\rm{INV }} {\rm{ex}}{{\rm{p}}^*}{\rm{ }}@{\rm{mid}} @{\rm{tid}} {\rm{| new}} {\rm{reg exp}}@{\rm{tid}} | \\ \;\;\;\;\;\;\;\;{\rm{get reg reg}} \Delta {\rm{ | put reg reg}} \Delta {\rm{|}} {\rm{exception}} {\rm{exp}}\\ {\rm{INV:: = invoke}} | {\rm{ reg}} \leftarrow {\rm{invoke}}\\ {\rm{UN:: = reg}} = {\diamondsuit _{\rm{u}}} {\rm{reg}}\\ {\diamondsuit _{\rm{u}}}{\rm{:: = }}-{\rm{, }} {\rm{!, }}\ell \\ {\rm{BN:: = reg}} = {\rm{reg}} {\diamondsuit _{\rm{b}}} {\rm{reg}}\\ {\diamondsuit _{\rm{b}}}{\rm{:: = +, }}-, \times {\rm{, }} \div {\rm{, mod, }} \oplus {\rm{, }} {\rm{|, \&, }} \ll {\rm{, }} \gg {\rm{, }}{ \gg _a}{\rm{, cmp}}\\ {\diamondsuit _{\rm{r}}}{\rm{:: = }} \le {\rm{, }} \ge {\rm{, >, <, = =, }} \ne \\ {\rm{exp:: = }}c{\rm{ |}} {\rm{str}} | {\rm{pc}}| \varepsilon \\ \Delta {\rm{:: = reg}} | @{\rm{fid}}\\ c{\rm{:: = int | bool}} {\rm{|}} {\rm{null}}\\ {\rm{bool:: = }}\;{\rm{true | false}} \end{array} $$

SDIL的语法中，A用于表示应用程序中的目标文件，由类 (cls)、域 (fld)、方法 (mtd) 和字符串 (str) 组成。在原Dalvik指令集中，str是以id为索引的资源映射，其中包括方法名、类名等信息，而在SDIL中，为了分析的方便，将映射全部展开，在之后的符号计算中不需要寻找映射，而可以直接使用str。

应用程序的其他组成部分cls、fld与mtd均有各自的展开式，如cls由名称、父类、接口与主体组成，主体又是由fld与mtd组成，mtd由方法名及方法主体mbody构成。

语句stmt存在于方法的主体mbody中，包括了多种表达式，如指令move reg reg，表明当前SDIL指令为move，后面操作数限定为两个寄存器。这些指令的具体语义将在后文详细表述。

${\diamondsuit _{\rm{u}}}, {\diamondsuit _{\rm{b}}} $分别表示典型的一元与二元运算，如与、或、非、取余等。另外需要说明的是本文将Dalvik指令集中的array-length指令划分为一元运算，以符号$\ell $标识，以求简洁地表述程序行为。

SDIL的语义表达式由3种参数组成：m.pc表示当前执行指令，A代表当前分析的DEX文件，C表示执行当前指令前的堆栈初始状态，$ C = \langle S, H, \langle m, {\rm{pc}}, R\rangle ::SF\rangle $。

语义表达式中的每一个状态语句的计算都符合以下形式化表达：

$$ \frac{{m.{\rm{pc}} = {\rm{stmt}}}}{{A \vdash C \Rightarrow C'}} $$

如SDIL中const指令的语义表达式为：

$$ \frac{{m.{\rm{pc}} = v{\rm{ }} \leftarrow c}}{{A \vdash C \Rightarrow \langle S, H, \langle m, {\rm{pc}} + 1, R\left[{v \mapsto c} \right]\rangle ::SF\rangle }} $$

参考Dalvik指令官方文档并结合实际分析，结果表明，在执行指令const后，静态堆和动态堆不变，而调用堆中计数器加一，操作数c的值将被赋给目的寄存器v。类似地，本文对所有SDIL指令都进行了形式化的语义表达。

5. 结束语

本文的贡献主要包括以下3个部分：

1) 提出了一套以Dalvik指令集为基础的精简指令集。指令集针对移动恶意代码行为的特点，将原指令集进行语义归纳与优化，同时仍保持源程序的语义与控制关系；

2) 在精简指令集的基础上，提出了基于语义的行为分析方法，方法通过精简指令对样本代码进行符号化抽象，跟踪敏感调用追踪相关数据流和控制流变化，解决了一般的分析方法无法有效追踪移动应用行为的问题；

3) 完成了原型系统开发，实现了基于语义的移动恶意代码行为提取和检测等功能。测试结果表明，本文所提方法可以有效发现移动应用的后台行为，对未知恶意软件具有较好的识别能力。

本文提出的方法将Android指令集精简并提炼出了用于分析应用行为的中间语言，可以高效地对应用行为进行形式化描述。通过对控制流、数据流和控制依赖关系的深度分析，在并在计算的过程中不断优化分析路径，缓解了符号执行中的路径爆炸问题。最终通过路径追溯，可以发现应用在非用户确认的情况下执行的后台行为并计算其触发条件，揭示出样本后台行为的执行全过程。实验表明本方法可以发现特征检测无法发现的未知移动恶意应用程序，在一定程度上弥补了现有特征分析不能有效发现未知应用的问题。

参考文献 (11)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于语义的Android敏感行为静态分析方法

doi: 10.3969/j.issn.1001-0548.2017.02.019

作者简介:
董航 (1986-), 男, 博士, 主要从事软件安全和移动互联网安全方面的研究

Semantic-Based Sensitive Behavior Analysis Method for Android

计量

基于语义的Android敏感行为静态分析方法

doi: 10.3969/j.issn.1001-0548.2017.02.019

1. 北京邮电大学信息安全中心北京海淀区 100876

2. 国家计算机网络应急技术处理协调中心北京朝阳区 100029

作者简介:
董航 (1986-), 男, 博士, 主要从事软件安全和移动互联网安全方面的研究

English Abstract

Semantic-Based Sensitive Behavior Analysis Method for Android

1. Information Security Center, Beijing University of Posts and Telecommunications Haidian Beijing 100876

2. National Computer Network Emergency Response Technical Team/Coordination Center of China Chaoyang Beijing 100029

全文HTML

3.1. 路径提取

3.2. 路径优化

3.3. 符号计算

目录

期刊在线

编辑办公

友情链接

留言板

基于语义的Android敏感行为静态分析方法

doi: 10.3969/j.issn.1001-0548.2017.02.019

作者简介: 董航 (1986-), 男, 博士, 主要从事软件安全和移动互联网安全方面的研究

Semantic-Based Sensitive Behavior Analysis Method for Android

计量

出版历程

基于语义的Android敏感行为静态分析方法

doi: 10.3969/j.issn.1001-0548.2017.02.019

1. 北京邮电大学信息安全中心 北京 海淀区 100876 2. 国家计算机网络应急技术处理协调中心 北京 朝阳区 100029

作者简介: 董航 (1986-), 男, 博士, 主要从事软件安全和移动互联网安全方面的研究

English Abstract

Semantic-Based Sensitive Behavior Analysis Method for Android

1. Information Security Center, Beijing University of Posts and Telecommunications Haidian Beijing 100876 2. National Computer Network Emergency Response Technical Team/Coordination Center of China Chaoyang Beijing 100029

全文HTML

3.1. 路径提取

3.2. 路径优化

3.3. 符号计算

目录

期刊在线

编辑办公

友情链接

作者简介:
董航 (1986-), 男, 博士, 主要从事软件安全和移动互联网安全方面的研究

1. 北京邮电大学信息安全中心北京海淀区 100876

2. 国家计算机网络应急技术处理协调中心北京朝阳区 100029

作者简介:
董航 (1986-), 男, 博士, 主要从事软件安全和移动互联网安全方面的研究

1. Information Security Center, Beijing University of Posts and Telecommunications Haidian Beijing 100876

2. National Computer Network Emergency Response Technical Team/Coordination Center of China Chaoyang Beijing 100029