文档库 最新最全的文档下载
当前位置:文档库 › 基于用户行为关联分析的电子取证系统研究

基于用户行为关联分析的电子取证系统研究

针对目前电子取证缺乏全程监督的问题提出了一种基于用户行为关联分析的电子取证系统。该系统根据业务活动主体、行为和客体约束关系建立用户行为知识库,基于电子证据属性相似度,对原始电子证据进行过滤和融合,在WINEPI 算法的基础上,实现电子证据的用户行为关联。使用实际数据测试表明,该系统能够对用户网络活动过程进行全程监督,并可以把取证过程的监督数据作为呈堂的证据。

关键词

电子取证;关联分析;用户行为

基于用户行为关联分析的电子取证系统研究*

1,2

,万国根

3

(1.四川大学数学学院成都610065;2.公安部第三研究所上海200031;

3.清华大学网络行为研究所北京100084)

摘要

研究与开发

*

国家发改委信息安全基金资助专项“面向主动防御的电子取证系统”

1引言

电子取证是从电子数据中分析、提取出能够为法庭接

受的、足够可靠和有说服力的电子证据的过程[1],其主要方法是分析并识别计算机犯罪行为,包括网络攻击行为、非法用户对系统的使用或合法用户对系统的越权使用等。电子取证包括数据获取、数据分析、证据保全和证据提交等环节,其中关键是数据分析。数据分析需要对大量的、变化的原始数据进行过滤、去重,通过事件重构和关联分析,提取出与网络犯罪案件相关的证据。

自20世纪90年代以来,人们相继提出了多种电子证据分析的方法和技术[2],主要包括:一是从攻击过程出发分析电子证据[3],主要代表人物是Howard ,其主要局限是攻击过程中攻击者、攻击工具等信息难以获取,目标定位难;二是从攻击特征对电子证据进行分析[4],适合于构建基于特征的入侵

检测代理,主要代表人物是Kumar 、Bishop 和Richardson 等,其局限是攻击特征难以预先全面掌握,易于遗漏关键信息;三是从计算机滥用角度出发[5],对电子证据进行分类分析,这种分类体系目前正应用于当前的许多入侵检测系统中,诸如

MIDAS 、Snort 和IDES 等,主要代表人物是Anderson 与Neumann ,其主要局限是获取的信息没有反映过程,在证据

呈现时效力不足。以上方法另一个共同问题是注重静态的取证分析而没有考虑电子取证随时间的变化,导致开发出来的取证产品和工具难以收集到符合司法要求的证据。

本文将建立一个基于用户行为关联分析的电子取证系统。该系统从业务应用流程出发,根据业务流程分析用户活动,建立业务系统的主体、客体、行为关系约束知识库。在电子证据分析时,提取动态获取的电子证据主体、客体、行为属性,根据知识库判断电子证据的合法性和有效性。该系统在取证环节上做到了全过程侦查,突破了现有电子取证方法的狭隘眼界,使电子取证侦查活动从时间维度上向前/向后延伸,并可以把取证过程的监督数据作为证据的一部分呈堂。下面介绍其框架、功能和主要技术原理。

72

图1体系结构

2相关概念和术语

2.1电子证据元组

在给定的网络空间中,电子证据可定义为:

Evidence={ID,Subject,Behaviour,Object,Time}

各参数分别表示电子证据标识,产生电子证据的网络活动主体、行为、客体、时间。其中电子证据、电子证据主体、电子证据行为、电子证据客体都是集合,时间是一个一维连续值。电子证据的集合定义为E ={E 1,E 2,…,E m };电子证据的主体集合定义为S ={S 1,S 2,…,S m },每个主体的属性定义为S i ={S i ,S i ,…,S i }1

2

m

;电子证据的行为集合定义为B =

{B 1,B 2,…,B m },每个行为的属性定义为B i ={B i ,B i ,…,B i }1

2

n

电子证据的客体集合定义为O ={O 1,O 2,…,O m },每个客体的属性定义为O i ={O i ,O i ,…,O i }1

2

n

2.2电子证据序列

电子证据序列是指某个时间窗口内的电子证据按照事件发生时间的有序排列,记为SEQ ={E 1,E 2,…,E k },含有k 项的序列称为k 序列。

2.3安全事件

一定时间内描述同一犯罪行为的电子证据集合为安

全事件,该集合内的证据是由一系列攻击步骤组成的网络活动产生的。安全事件定义为A =(ID,Name,Time,

Alerts)。其中,ID 为安全事件标识;Name 为安全事件名

称;Time 为安全事件时间;Alerts 为产生该安全事件的电子证据集合。

2.4电子证据关联规则的支持度

给定数据集D 和关联规则X 圯Y ,令sup D (X 圯Y )=

D X ∪Y |D |

,(0≤sup D

(X 圯Y )≤1)。

称sup D (X 圯Y )为关联规则X 圯Y 在数据集D 上的支持度[6,7]。sup D (X 圯Y )指X ,Y 在D 中同时出现的概率。

2.5电子证据关联规则的置信度

给定数据集D 和关联规则X 圯Y ,令sup D (X 圯Y )=

|D X ∪Y ||D X |

,(0≤conf D

(X 圯Y )≤1)。

称conf D (X 圯Y )为关联规则X 圯Y 在数据集D 上的置信度[6,7]。conf D (X 圯Y )表示在D 中X 出现的前提下,Y 出现的条件概率。

3系统框架

图1的体系结构可以分为4个部分:数据采集模块、

73

数据预处理模块、证据分析模块和用户行为知识库。

3.1用户行为知识库

用户行为知识是业务系统正常运行的操作规范、行为规范以及相关的法律法规制度要求等。建立用户行为知识库包括网络用户行为过程分析、行为建模以及业务系统正常运行的操作规范、行为规范和相关的法律法规制度要求信息收集等。

(1)网络用户行为过程

电子证据是网络空间中活动的产物,是网络使用主体(机构或公众)对网络空间中计算环境、网络环境、应用环境使用、操作留下的痕迹。网络使用主体的操作过程是一个复杂的行为过程。在整个过程中,使用主体登录系统、操纵业务系统、打印结果到最后退出系统全过程构成过程环[9]。图2是一个医疗系统中电子病历记载的手术医生在组织手术时的操纵过程。在过程环中,使用主体的操作过程根据预先定义的规则按一定的顺序被执行称为过程路由。

(2)网络活动

操作过程中的每一个环节(如图1中的开始手术、术前小结等)称为网络活动。任何网络活动都包括主体、客体、行为、时间、空间5要素,如图3所示。

主体是网络空间中的机构和个人。机构是特定信息系统的建设应用机构,也是责任行为所侵害的利益主体,个人是责任行为主体,分为两种:一是确定的(角色和数量)特定机构内部的人员,二是不确定的外部人员,角色和数量都不确定。客体是主体行为所利用、作用和产生的事物,包括信息系统中的终端、网络、数据库、存储介质,以及主体启动的进程,使用的文件、程序、数据,行为产生的结果等。行为是主体对客体的操作,如发送邮件、打印文件、非法获取root用户权限等。空间是主体行为所在信息系统运行的软硬件环境,即信息系统的计算环境、网络环境、业务应用环境。时间是行为发生的时间。

主体、客体、行为是网络行为的基本要素,一个主体可以有多种行为,一种行为可以有多个客体,主体、客体、行为之间的关系如图4所示。

(3)活动约束关系

活动约束关系是指使用主体操作过程中各活动之间

图2使用主体的操作过程

图3网络活动模型74

图4网络活动中主体、客体、行为的关系

的时序关系,以及活动主体、客体、行为、时间、空间之间的约束关系。系统中任何过程环节约束条件的违背,都是违规行为,都会直接或间接影响系统的安全和稳定。

网络活动内约束关系主要有主体—行为、行为—客体、主体—客体、行为—时间4种约束关系。

·主体—行为约束关系:描述活动由谁来执行。例如,是谁能发邮件。

·行为—客体约束关系:描述活动的行为所需要对客体的操作。例如,在发送邮件后,发送与邮件体必须

一致。

·主体—客体:描述活动的主体与客体的关系。例如,在发送邮件后,发送者与邮件体之间必须存在关联

关系。

·行为—时间约束关系:描述活动的行为与时间的关系。例如,发送邮件的开始时间、完成时间、截止时

间等。

活动间的约束关系主要包括路由约束和时间约束。

·路由约束即主体操作过程的结构。操作过程的基本

结构一般有6种[8],分别为顺序、并发、选择、同步聚

合、选择聚合和循环。复杂的业务流程可由这6种

基本流程结构串联、并联或者嵌套组合而成。

·时间约束机制即操作过程中各活动的时序关系,包括时间点约束和时间段约束两种。时间点约束是指

在规定时间点之前必须完成该活动。例如,在医生手

术过程中,递交手术申请的截至时间为上午12:00;

递交麻醉前访视结果的截至时间为下午3:00;安排

手术的截至时间为下午3:30等。时间段约束指某

活动必须在创建后某一段时间之后或者之前完成,

例如,在指定手术开始时间为上午10:00的情况

下,规定身份确认必须在手术开始前5min完成,

即9:55是身份确认的截至时间。

(4)用户行为约束关系建模

用户行为之间的约束关系可由网络活动内的约束主体、约束客体、约束行为、约束时间、约束类型词等5项要素组成。活动内约束关系可以表示为:SR=:{S,O,A,C[T]}。括号[]内的要素表示可选。各要素含义及其说明列于表1。

3.2数据收集模块

数据收集模块采集网络、终端、业务应用系统中的数据。该模块收集到的数据被称为原始证据。原始证据是整个网络空间的网络活动的痕迹,是对案件发生时所造成的全部时间、空间变化,主体和客体各自的心理状态及其相互作用结果的痕迹之固化。原始证据直接印证原始事实,与客观事实亦直接同一。但由于技术、自然、人为的原因,我们不可能获取网络空间中网络活动的全部,采集的数据只是整个网络空间的网络活动的一部分,那些未能采集的数据被称为纷失电子证据。

表1活动内约束描述

构成要素含义说明

ID约束标识用于惟一标识一个约束

S约束主体即约束谁,例如系统管理员、普通用户等C约束类型词包括正面约束词和负面约束词,如“允

许”、“需要”、“禁止”等

O约束客体表示约束主体作用的对象

T约束时间表示约束的生效时间段

A约束行为表示约束主体作用于约束客体的具体

行为,如“登录”、“发邮件”、“打印”等

75

3.3数据预处理模块

证据预处理模块按照同一性或真正性要求,对原始证据进行清洗、简化和集成操作,剔除应手证据中与特定案件事实无关的虚伪证据及非法证据,形成具备同一性或真正性的法律证据。

系统采用相似度隶属函数的度量方法[9],通过电子证据的主体、客体、行为和时间4种属性关系,来实现电子证据冗余的消减。电子证据的相似度隶属函数定义

为S(e i,e j)=

m

k=1

Σαkδ(e ik,e jk),其中αk为归一化权重,m

k=1

Σαk=1,

δ(e ik,e jk)为属性相似度。

根据电子证据主体、客体、行为关系,构造电子证据各属性的层次结构[10,11]。属性的相似度为:(1)当n i=n j

时,δ(e n,e n)

i j =1;(2)当n i≠n j时,δ(e n,e n)

i j

=1-D(e n,e n)

i j

/H。其

中n i,n j为结点的属性值;D(e n,e n)

i j表示两个结点到上层最近公共结点的层数;H表示层次结构图的总层数。

3.4证据分析模块

证据分析模块借助用户行为知识库对法律证据进一步分析,形成案件证据。经证据分析后不能成为法律证据的数据称为无资格证据而丢弃。证据分析模块主要完成以下处理工作。

(1)证据分析。将实时产生的电子证据与知识库中的行为过程规范标准进行一一比对,根据比对结果,确定偏离程度而应承担的责任后果,如图5所示。

(2)根据比对结果创建证据序列。将证据中不同数据源的时间基准(例如CMOS时间的不同步)修改到统一的时间基准,然后建立按主体、客体、行为划分证据序列,每个序列按时间先后关系排列。

(3)安全事件关联。将同一个攻击行为所产生的证据关联起来,确定证据关联之间的关联度,分析之间的因果联系。

证据分析模块采用基于滑动窗口的WINEPI算法[12,13]。WINEPI算法与Apriori算法类似,用滑动窗口形成事务数据库,首先产生候选集,然后扫描数据库,反复迭代得到频繁序列。算法的实现流程如下。

输入:电子证据序列集合A,安全事件集合s,滑动窗口宽度W,滑动窗口步长d,支持度阈值min_sup,置信度阈值min_conf。

输出:窗口宽度W条件下,满足最小支持度和最小置信度的关联规则。

(1)k=1,生产1-序列候选集C1={{a}|a∈A};

(2)while C k≠Φdo;

(3)发现k-频繁序列集(定义):按时间顺序移动滑动窗口,扫描序列集s,计算C k中满足最小序列支持度的k-频繁序列F k;

(4)由k-频繁序列F k生成(k+1)-序列候选集C k+1;

(5)利用Apriori性质:频繁项集的所有非空子集也必是频繁的,进行剪枝。如果C k+1中某个(k+1)-项的k-项

图5网络行为活动实时比对过程76

子集不在F k 中,则删除该候选项;

(6)循环执行上述操作,直到C k =Φ;(7)for all α∈F (F ∪k F k )do

for all β哿αdo

if fr (α,s ,W )/fr (β,s ,W )≥min_sup then Output rule and Conf =fr (α,s ,W )/fr(β,s ,W )

其中,fr (α,s ,W )=|s ω∈W (s ,W )|α∈s w |/|W (s ,W )表示α在s 的全部宽度为W 的窗口集合W (s ,W )中出现的比率。

4实验及结果

运用本系统对一个政府机构的局域网业务应用产生

的数据集进行用户行为的关联分析实验。该网络是一个

100Mbit/s 的局域网段192.168.1.0/24,使用人员有150人,

分为7个业务部门,主要业务系统有5类,网络上的主机

有Windows XP 、Redhat Linux2.4.20等操作系统以及Web 服务器、FTP 服务器、Oracle 服务器。实验中,首先根据业务应用系统中业务流程建立如图1所示的用户操作过程图;然后分析过程的每个活动环节,建立如图2所示的主体、客体、行为映射图;再根据电子证据的主体、客体、行为知识库和网络拓扑信息,对动态产生的原始证据进行清洗、简化和集成操作,滤除在本网络环境中不可能发生的证据和重复数据。

采用本文的证据预处理方法,电子证据精简如表2所示。在关联分析中,本文对表3列出的电子证据列表进行分析。该表包括主体(用户)、用户操作(行为)、客体(IP 地址)、时间以及一个初始序列S1~S10。

表4是设置对最小支持度=10%和最小置信度=70%,项容量大于4情况下,采用WINEPI 算法关联挖掘的部分结果。

表2

电子证据精简实验结果

业务部门

使用人员

行为种类

原始电子数据(份)

有效电子数据(份)

精简比例

7150345298761567052%

表4

用户访问事件关联挖掘的结果

表3

用户访问事件的原始数据记录

序号

时间

用户

用户的IP 地址

用户的操作S108:30:15Wn 10.10.20.201系统操作S220:10:01Shiminghe 10.10.20.214打印服务S316:50:51Whf 10.10.20.96浏览网页S408:45:06Wn 10.10.20.201收发邮件S521:00:04Shiminghe 10.10.20.214浏览网页S610:00:04Wn 10.10.20.201系统操作S714:20:18whf 10.10.20.96打印服务S808:10:20Wn 10.10.20.203系统操作S915:20:10whf I 0.10.20.96收发邮件S10

09:30:15

Wn

10.10.20.201

打印服务

编号

规则

支持度

置信度

1Wn,10.10.20.201,系统操作=>上午20%100%210.10.20.201,系统操作=>上午,Wn 20%100%3上午,10.10.20.201,系统操作=>Wn

20%100%4Wn,10.10.20.201,打印服务=>上午10%100%510.10.20.201,打印服务=>上午,Wn 10%100%6Wn,打印服务=>上午,10.10.20.20110%100%7上午,10.10.20.201,打印服务=>Wn 10%100%8上午,打印服务=>Wn,10.10.20.20110%100%9上午,Wn,打印服务=>10.10.20.201

10%100%10Wn,10.10.20.201,收发邮件=>上午10%100%…

77

5结束语

本文全面概述了一种基于用户行为关联分析的电子取证系统,着重描述了其原理、框架和功能模型,介绍了用户行为分析方法、证据关联分析方法。本系统较好地解决了取证全程化监督中数据信息遗漏、提交证据的可靠性、关联性和合法性不足的问题,对在司法、监察等领域电子取证应用以及在我国重要信息系统构建积极主动的安全防御体系建设都有重要的启示作用。

参考文献

1Brian L.Porto:legal reasoning and review.David A Schultz ed.

Law and politics:unanswered questions,Harvard University Press,1996

2丁丽萍,王永吉.多维计算机取证模型研究.第二十次全国计算机安全学术交流会论文集

3Knight https://www.wendangku.net/doc/a916163142.html,puter vulnerabilities,https://www.wendangku.net/doc/a916163142.html,/ docs/papers/general/compvuln_draft.pdf,2008-04-06

4Lough D L.A taxonomy of computer attacks with applications to wireless networks.Virginia Polytechnic Institute and State University,2001

5Amel M,Noureddine B.Multi-violation detectors an algebraic tool for alert correlation and intrusion detection.In:ICTTA06, Damascus:IEEE Computer Society,20066Agrawal R,Srikant R.Fast algorithms for mining association rules in large databases.In:Proceedings of20th International Conference on Very Large Databases,Santiago,Chile,1994

7Calders T,Parcedaens J.Axiomatization of frequent itemsets.

Theoretical Computer Science,2003,290(1):669~693

8杜月,江志斌,刁晓姊等.基于工作流驱动的手术临床路径建模及系统架构.上海交通大学学报,2008,42(5)

9Jin H,Sun J H.A fuzzy data mining based intrusion detection model.In:10th IEEE International Workshop on Future Trends of Distributed Computing Systems(FTDCS04).IEEE Computer Society,2004

10Julisch K.Clustering intrusion detection alarms to support root cause analysis.ACM Transactions on Information and System Security,2003,6(4):443~471

11Mika K.A knowledge discovery methodology for telecommunication network alarm databases.Helsinki:University of Helsinki,1999 12武斌,杨义先,郑康锋.入侵检测中基于序列模式的告警关联分析.电子科技大学学报,2009,38(3)

13Amel M,Sihem G F,Sihem B.An efficient correlation method for intrusion detection.12th IEEE International Conference on Electronics,Circuits and Systems.Tunisia:IEEE Circuits And Systems Society,2005

[作者简介]苏红,四川大学数学学院博士研究生,主要研究方向为信息网络安全;万国根,任职于清华大学网络行为研究所,主要研究方向为信息网络安全。

Electronic Forensics System Based on User

Behaviors Correlation Analysis

Su Hong1,2,Wan Guogen3

(1.College of Math,Sichuan Univ.,Chengdu610065,China;

2.The Third Research Institute of Ministry of Public Security,Shanghai200031,China;

3.Inst.of Network Behaviors,Tsinghua Univ.,Beijing100084,China)

Abstract Aimed at the problem of which the electronic forensics lack of full supervision,the electronic forensics system based on user behaviors correlation analysis was presented.The system according to the main business activities,behavior,and object constraints of application established knowledge of user behavior,based on the similarity properties of electronic evidence, electronic evidence of the original filter and integration,in WINEPI algorithm based on the realization of user behavior associated with electronic evidence.Tested using actual data show that the system can monitor the whole process of network activity and can show the supervised data as evidence in court.

Key words electronic evidence,user behavior,correlation(收稿日期:2010-10-10)78

相关文档