内部威胁是组织中出现重大安全隐患的主要原因之一,也是一个长期的挑战。通过分析现有的内部威胁数据, 指出内部威胁检测最大的挑战在于数据不平衡、有标注的威胁样本少。内部威胁检测的经典数据集CMU-C R4.2共有322万条日志数据,其中标记出的恶意操作日志仅7 423条;日志中的大多数操作类型与恶意行为无关,如泄露企业数据这一恶意行为仅与两种类型操作高度相关,而其余的 40 多种类型操作的日志则可能对检测造成干扰。针对这一挑战,设计了一种基于操作注意力和数据增强的数据处理框架。该框架首先对操作进行异常评估,对低异常评分的操作进行掩码操作,使模型更好地关注与恶意行为相关的操作,可以被认为是一种操作的硬注意力机制。通过分析内部威胁数据集的特点,设计了3种规则对恶意样本进行数据增强,以增加样本的多样性和缓解正负样本严重不平衡的问题。将有监督的内部威胁检测视作一个时序分类问题,在长短期记忆卷积神经网络(LSTM-FCN)模型中加入残差连接以实现多粒度的检测,并使用精确率、召回率等指标实施评估,要优于现有的基线模型;另外,在 ITD-Bert、TextCNN 等多种经典模型上实施基于操作注意力和数据增强的数据处理框架,结果表明所提方法能够有效提升内部威胁检测模型的性能。