恶意PDF检测中的特征工程研究与改进

黄娜; 何泾沙; 吴亚飈

doi:10.12178/1001-0548.2021403

恶意PDF检测中的特征工程研究与改进

doi: 10.12178/1001-0548.2021403

1.
北京天融信科技有限公司　北京海淀区　100085
2.
北京工业大学信息学部　北京朝阳区　100124

基金项目: 北京市博士后科研工作经费支助项目(A创新研发类(2021-ZZ-087))

详细信息

作者简介:
黄娜(1990-)，女，博士，主要从事机器学习、信息与网络安全等方面的研究

通讯作者: 黄娜，E-mail：huang_na@topsec.com.cn

中图分类号: TP311

Research and Improvement of Feature Engineering for Malicious PDF Detection

HUANG Na^{1
, ,},
HE Jingsha²,
WU Yabiao¹

1.
Beijing Topsec Technologies Inc.　Haidian Beijing　100085
2.
Faculty of Information, Beijing University of Technology　Chaoyang Beijing　100124

摘要: 在基于机器学习的恶意PDF检测中，现有特征容易引起混淆或逃逸。为了提高特征的准确性和鲁棒性，在现有方法的基础上研究和改进特征提取方法，结合内容特征、结构特征以及逻辑树的间接结构特征，通过分析特征重要性进行特征选择，最后应用分类算法实现恶意PDF检测。结构特征包括多个高频次叶子节点数量；内容特征包括元数据特征、字节熵值、流字节比例等特征。收集实验数据集，提取特征并分析，最终选择出58维特征，使用LightGBM算法训练梯度提升决策树模型，测试准确率为99.9%，优于其他方法。另外，模拟攻击部分样本的特征，生成对抗样本，检测准确率同样达到99.2%。
- 内容特征 /
- DOM树 /
- 梯度提升决策树 /
- 恶意PDF检测 /
- 结构特征
Abstract: In malicious portable document format (PDF) detection based on machine learning, the existing features are easy to be confused or escaped. In order to improve the accuracy and robustness of features, this paper studies and improves the feature extraction method based on the existing methods. Combining the content features, structure features and indirect structure features of document object model (DOM) trees, the feature is selected by analyzing the importance of features and finally the malicious PDF detection is realized by using classification algorithm. The structural features are the number of leaf nodes with high-frequency. Content features includes metadata features, byte entropy, stream byte ratio, etc. The improved feature extraction method can avoid the problems of confusion and escape, and improve the accuracy and robustness of features. In the experiments, we extracted and analyzed features from the collected dataset, 58-dim features with high-importance were selected. Then we used LightGBM algorithm to train gradient boosting decision tree. The testing accuracy of this model reaches 99.9%, which is superior to the other methods. In addition, the features of some adversarial samples are simulated, and the detection accuracy is about 99.2%.
- content feature /
- DOM tree /
- gradient boosting decision tree /
- malicious PDF detection /
- structural feature

图 1 逻辑结构示例

下载: 全尺寸图片幻灯片

图 2 现有方法分类

下载: 全尺寸图片幻灯片

图 3 PDF逻辑结构示例

下载: 全尺寸图片幻灯片

图 4 黑白样本的特征对比

下载: 全尺寸图片幻灯片

图 5 特征重要性

下载: 全尺寸图片幻灯片

表 1 Catalog字典中常见的对象

字段	类型	描述
Type	name	必须为Catalog
Version	name	PDF文件所遵循的版本号
Pages	dictionary	页面集合入口
PagesLabels	number tree	定义Page和Page之间的关系
PageLayout	name	文档的页面布局
PageMode	name	文档的显示方式
Outlines	dictionary	文档目录
Threads	array	文档线索
JS	stream	执行JavaScript代码
JavaScript	stream	执行JavaScript代码
OpenAction	dictionary	自动执行相应动作
AA	dictionary	自动执行的相应动作
Names	dictionary	文档名称
EmbeddedFile	dictionary	打开嵌入的文件
F	dictionary	打开嵌入的文件
URI	dictionary	URL链接
AcroForm	dictionary	交互式表单
XFA	dictionary	交互式表单
Metadata	stream	文档元数据

下载: 导出CSV

表 2 内容特征

特征	意义
Version	PDF文件格式版本
EOF	结尾标志的数量
EndBytes	尾部字节数
Modification	是否经过修改
TotalEntropy	总体字节熵
TotalBytes	总体字节数
Ratio	关键节点数量与节点总数的比例
StreamEntropy	流内容字节熵
StreamBytes	流内容字节数
nonStreamEntropy	非流内容字节熵
nonStreamBytes	非流内容字节数
Stream_in_nonStream	流与非流字节比例
objCount_in_size	对象数与文件大小的比例
StreamEntropy	流内容字节熵
StreamBytes	流内容字节数

下载: 导出CSV

表 3 实验数据集

性质	训练集	测试集
恶意	5 000	1 000
正常	5 000	1 000

下载: 导出CSV

表 4 不同方法的AUC值对比

方法	AUC
PDFMS^[4]	0.97
Bag-of-Path^[13]	1.00
本方法	1.00

下载: 导出CSV

表 5 不同特征的性能对比

方法	特征维度	Precision	Recall	Accuracy	F1-measure
PDFMS	31	0.909	0.992	0.909	0.949
Falah 2020	13	0.943	0.991	0.965	0.966
Srndic 2016	309	0.986	0.995	0.982	0.991
内容特征+结构特征	346	0.986	0.998	0.993	0.992
特征选择(内容特征+结构特征)	37	0.998	0.998	0.998	0.998
本文方法	58	0.999	0.998	0.999	0.999

下载: 导出CSV

表 6 对抗鲁棒性测试结果

测试集	Accuracy	Precision	Recall	F1-measure
无对抗样本测试集	0.992	0.999	0.984	0.991
对抗样本测试集	0.992	0.998	0.985	0.992

下载: 导出CSV

[1]	杜学绘, 林杨东, 孙奕. 基于混合特征的恶意PDF文档检测[J]. 通信学报, 2019, 40(2): 1-11. doi: 10.11959/j.issn.1000-436x.2019042 DU X H, LIN Y D, SUN Y. Malicious PDF document detection based on mixed feature[J]. Journal on Communications, 2019, 40(2): 1-11. doi: 10.11959/j.issn.1000-436x.2019042
[2]	LASKOV P, SRNDI N. Static detection of malicious JavaScript-bearing PDF documents[C]//The 27th Annual Computer Security Applications Conference, ACSAC 2011. Orlando, FL: [s.n.], 2011: 5-9.
[3]	SRNDI N, LASKOV P. Detection of malicious PDF files based on hierarchical document structure[C]//2013 Network and Distributed System Security Symposium. San Diego, California: ISOC, 2013: 1-16.
[4]	SRNDIC N, LASKOV P. Hidost: A static machine-learning-based detector of malicious files[J]. EURASIP Journal on Information Security, 2016, 2016(1): 22. doi: 10.1186/s13635-016-0045-0
[5]	SMUTZ C, STAVROU A. Malicious PDF detection using metadata and structural features[C]//Computer Security Applications Conference. [S.l.]: ACM, 2012: 239.
[6]	MAIORCA D, ARIU D, CORONA I, et al. A structural and content-based approach for a precise and robust detection of malicious pdf files[C]//Proceedings of the 1st International Conference on Information Systems Security and Privacy. Loire Valley: [s.n.], 2015: 27-36.
[7]	TORRES J, SANTOS S. Malicious PDF documents detection using machine learning techniques-a practical approach with cloud computing applications[C]//International Conference on Information Systems Security and Privacy. Funchal, Madeira-Portugal: SciTePress , 2018: 337-344.
[8]	FETTAYA R, MANSOURY. Detecting malicious PDF using CNN[EB/OL]. [2021-10-21]. https://doi.org/10.48550/arXiv.2007.12729.
[9]	KANG A R, JEONG Y S, KIM S L, et al. Malicious PDF detection model against adversarial attack built from benign PDF containing JavaScript[J]. Applied sciences, 2019, 9(22): 4764. doi: 10.3390/app9224764
[10]	CUAN B, DAMIEN A, DELAPLACE C, et al. Malware detection in PDF Files using machine learning[C]//The 15th Intrnational Joint Conference on e-Business and Telecommunications. Piscataway, NJ: IEEE, 2018: 412-419.
[11]	李坤明, 顾益军, 张培晶. 对抗环境下基于集成决策树的恶意PDF文件检测[J]. 计算机应用与软件, 2020, 10(37): 318-322. doi: 10.3969/j.issn.1000-386x.2020.10.051 LI K M, GU Y J, ZHANG P J. Detection of malicious PDF files based on integrated decision tree in adversarial environment[J]. Computer Applications and Software, 2020, 10(37): 318-322. doi: 10.3969/j.issn.1000-386x.2020.10.051
[12]	邢红梅, 陈欣, 王慧. 基于LightGBM模型的文本分类研究[J]. 内蒙古工业大学学报, 2020, 39(1): 52-59. XING H M, CHEN X, WANG H. Research on Text classification based on lightGBM model[J]. Journal of Inner Mongolia University of Technology, 2020, 39(1): 52-59.
[13]	AHMED F, LEI P, SHAMSUL H, et al. Improving malicious PDF classifier with feature engineering: A data-driven approach[J]. Future Generation Computer Systems, 2020, 115: 314-326.

[1]	郭峰, 陈中舒, 代久双, 吴云峰, 刘军, 张昌华. 基于动态先验特征的包覆药多类型外观缺陷深度检测框架 . 电子科技大学学报, 2023, 52(6): 872-879. doi: 10.12178/1001-0548.2022326
[2]	刘露露, 贺占庄, 马钟, 刘彬, 王莉. 多阶段特征重分布算法的小样本目标检测 . 电子科技大学学报, 2023, 52(1): 116-124. doi: 10.12178/1001-0548.2022016
[3]	王军. 基于多尺度特征预测的异常事件检测 . 电子科技大学学报, 2022, 51(4): 586-591. doi: 10.12178/1001-0548.2021333
[4]	宋勇, 蔡志平. 一种基于信息论模型的入侵检测特征提取方法 . 电子科技大学学报, 2018, 47(2): 267-271. doi: 10.3969/j.issn.1001-0548.2018.02.017
[5]	田坤, 李晋. 太赫兹频段微动特征边缘检测及提取方法 . 电子科技大学学报, 2018, 47(1): 19-24, 36. doi: 10.3969/j.issn.1001-0548.2018.01.003
[6]	曹健, 魏星, 李海生, 蔡强. 基于局部特征的图像分类方法 . 电子科技大学学报, 2017, 46(1): 69-74. doi: 10.3969/j.issn.1001-0548.2017.01.011
[7]	陈姝, 梁文章. 结合特征点匹配及深度网络检测的运动跟踪 . 电子科技大学学报, 2016, 45(2): 246-251.
[8]	杨凯, 郭强, 刘晓露, 刘建国. 基于多重特征向量的有向网络社团结构划分算法 . 电子科技大学学报, 2016, 45(6): 1014-1019, 1032. doi: 10.3969/j.issn.1001-0548.2016.06.024
[9]	张小松, 牛伟纳, 杨国武, 卓中流, 吕凤毛. 基于树型结构的APT攻击预测方法 . 电子科技大学学报, 2016, 45(4): 582-588. doi: 10.3969/j.issn.1001-0548.2016.04.011
[10]	陈超. 改进CS算法结合决策树的云工作流调度 . 电子科技大学学报, 2016, 45(6): 974-980. doi: 10.3969/j.issn.1001-0548.2016.06.017
[11]	沈志熙, 代东林, 赵凯. 基于多特征分步模糊推理的边缘检测算法 . 电子科技大学学报, 2014, 43(3): 381-387. doi: 10.3969/j.issn.1001-0548.2014.03.011
[12]	马春光, 石岚, 汪定. 基于访问树的属性基签名算 . 电子科技大学学报, 2013, 42(3): 410-414. doi: 10.3969/j.issn.1001-0548.2013.03.018
[13]	王勇, 张婷婷, 白杨, 刘梦娟, 秦志光. 基于普特征的Gnutella实例网络特征分析 . 电子科技大学学报, 2012, 41(2): 291-298. doi: 10.3969/j.issn.1001-0548.2012.02.023
[14]	罗航, 王厚军, 黄建国, 龙兵. 用递归BDD技术分析故障树 . 电子科技大学学报, 2011, 40(5): 726-731.
[15]	韩杰思, 沈建京. 采用图像滤波的多特征JPEG盲检测 . 电子科技大学学报, 2011, 40(2): 255-260. doi: 10.3969/j.issn.1001-0548.2011.02.020
[16]	朱颢东, 李红婵, 钟勇. 新颖的无监督特征选择方法 . 电子科技大学学报, 2010, 39(3): 412-415. doi: 10.3969/j.issn.1001-0548.2010.03.019
[17]	常政威, 桑楠, 熊光泽. 树拓扑片上网络的低能耗映射 . 电子科技大学学报, 2010, 39(4): 607-611. doi: 10.3969/j.issn.1001-0548.2010.04.029
[18]	甘玲, 朱江, 苗东. 扩展Haar特征检测人眼的方法 . 电子科技大学学报, 2010, 39(2): 247-250,231. doi: 10.3969/j.issn.1001-0548.2010.02.020
[19]	张靖, 姚珍, 唐雪飞. 基于决策树的不完整数据的处理 . 电子科技大学学报, 2007, 36(1): 116-118.
[20]	陈光宇, 黄锡滋, 唐小我. 故障树模块化分析系统可靠性 . 电子科技大学学报, 2006, 35(6): 989-992.

点击查看大图

图(5) / 表(6)

计量

文章访问数: 3734
HTML全文浏览量: 1128
PDF下载量: 70
被引次数: 0

全文HTML

基于文件格式漏洞的攻击行为是网络安全的主要威胁之一。文件格式往往具有跨平台的特点，一旦漏洞被利用，各类目标主机都可被轻易攻破。文档类的文件格式，如doc、docx、xls、pdf，在日常工作与生活中传播广泛，是藏匿和传播恶意行为的重要媒介，由此引起的安全事件不胜枚举。据Cisco发布的《2018年度网络安全报告》统计，在2017年间，恶意邮件附件中最普遍的3种文件格式为Office文档(38%)、压缩文件(37%)以及PDF文件(14%)。

PDF文件格式是由Adobe公司于1993年制定的一种电子文档分发开放式标准，具有以下优点：1) 灵活的层次结构，可以封装文字、图像、字体格式、超链接、声音、影像等众多信息；2) 跨平台的特性，在各类操作系统中通用。正是由于这些突出的特点，使得PDF文件在为我们带来便利的同时，也为黑客提供了可乘之机。从攻击角度来看，恶意PDF文件可分为两种类型：1) 利用PDF文档规范本身存在的漏洞，如字典中相同key值对应不同value、对象号错误引起误识别，以及利用ASCII编码隐藏关键节点等；2) PDF文件中携带恶意内容分为4种具体情况，即嵌入恶意JavaScript代码、嵌入恶意文档、嵌入恶意远程链接以及嵌入恶意软件。

PDF文件数量十分庞大，且具有统一的文件格式规范，便于提取出结构化特征，因此机器学习技术在恶意PDF检测中有良好的应用条件及效果。本文首先回顾恶意PDF检测研究现状，对其中存在的混淆和逃逸问题进行阐述；然后针对混淆和逃逸设计完善的特征组合，包括内容特征、结构特征以及逻辑树的间接结构特征，提高检测模型的性能。

4. 结束语

本文改进并实现了PDF静态特征提取方法，能够提取出更加准确的静态特征，防止混淆和逃逸。实验验证表明，与现有的其他特征工程相比，本文结合使用的结构特征、内容特征以及逻辑树间接结构特征，能够使机器学习检测模型实现较高的准确性和鲁棒性。

参考文献 (13)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

恶意PDF检测中的特征工程研究与改进

doi: 10.12178/1001-0548.2021403

作者简介:
黄娜(1990-)，女，博士，主要从事机器学习、信息与网络安全等方面的研究

通讯作者: 黄娜，E-mail：huang_na@topsec.com.cn

Research and Improvement of Feature Engineering for Malicious PDF Detection

计量

恶意PDF检测中的特征工程研究与改进

doi: 10.12178/1001-0548.2021403

1. 北京天融信科技有限公司　北京海淀区　100085

2. 北京工业大学信息学部　北京朝阳区　100124

作者简介:
黄娜(1990-)，女，博士，主要从事机器学习、信息与网络安全等方面的研究

通讯作者: 黄娜，E-mail：huang_na@topsec.com.cn

English Abstract

Research and Improvement of Feature Engineering for Malicious PDF Detection

1. Beijing Topsec Technologies Inc.　Haidian Beijing　100085

2. Faculty of Information, Beijing University of Technology　Chaoyang Beijing　100124

全文HTML

1.1. PDF规范介绍

1.2. 相关研究

2.1. 恶意PDF中的混淆和逃逸

2.2. 改进的静态解析方法

2.2.1. 内容特征

2.2.2. 结构特征

2.2.3. 逻辑树间接结构特征

2.3. 特征选择

2.4. LightGBM分类器

3.1. 方法验证

3.2. 与其他特征的性能对比

3.3. 鲁棒性验证

目录

期刊在线

编辑办公

友情链接

留言板

恶意PDF检测中的特征工程研究与改进

doi: 10.12178/1001-0548.2021403

作者简介: 黄娜(1990-)，女，博士，主要从事机器学习、信息与网络安全等方面的研究

通讯作者: 黄娜，E-mail：huang_na@topsec.com.cn

Research and Improvement of Feature Engineering for Malicious PDF Detection

计量

出版历程

恶意PDF检测中的特征工程研究与改进

doi: 10.12178/1001-0548.2021403

1. 北京天融信科技有限公司 北京 海淀区 100085 2. 北京工业大学信息学部 北京 朝阳区 100124

作者简介: 黄娜(1990-)，女，博士，主要从事机器学习、信息与网络安全等方面的研究

通讯作者: 黄娜，E-mail：huang_na@topsec.com.cn

English Abstract

Research and Improvement of Feature Engineering for Malicious PDF Detection

1. Beijing Topsec Technologies Inc. Haidian Beijing 100085 2. Faculty of Information, Beijing University of Technology Chaoyang Beijing 100124

全文HTML

1.1. PDF规范介绍

1.2. 相关研究

2.1. 恶意PDF中的混淆和逃逸

2.2. 改进的静态解析方法

2.2.1. 内容特征

2.2.2. 结构特征

2.2.3. 逻辑树间接结构特征

2.3. 特征选择

2.4. LightGBM分类器

3.1. 方法验证

3.2. 与其他特征的性能对比

3.3. 鲁棒性验证

目录

期刊在线

编辑办公

友情链接

作者简介:
黄娜(1990-)，女，博士，主要从事机器学习、信息与网络安全等方面的研究

1. 北京天融信科技有限公司　北京海淀区　100085

2. 北京工业大学信息学部　北京朝阳区　100124

作者简介:
黄娜(1990-)，女，博士，主要从事机器学习、信息与网络安全等方面的研究

1. Beijing Topsec Technologies Inc.　Haidian Beijing　100085

2. Faculty of Information, Beijing University of Technology　Chaoyang Beijing　100124