大数据 ›› 2022, Vol. 8 ›› Issue (2): 134-144.doi: 10.11959/j.issn.2096-0271.2022019

• 研究 • 上一篇    下一篇

一种半监督学习的金融新闻文本分类算法

张晓龙1,2, 支龙1,2, 高剑3, 苗仲辰3, 林越峰3, 项雅丽1,2, 熊贇1,2   

  1. 1 复旦大学计算机科学技术学院,上海 210438
    2 上海市数据科学重点实验室,上海 200438
    3 上海金融期货信息技术有限公司,上海 200120
  • 出版日期:2022-03-15 发布日期:2022-03-01
  • 作者简介:张晓龙(1998- ),男,复旦大学计算机科学技术学院硕士生,主要研究方向为自然语言处理、机器学习
    支龙(1996- ),男,复旦大学计算机科学技术学院硕士生,主要研究方向为自然语言处理、机器学习
    高剑(1978- ),男,上海金融期货信息技术有限公司总工程师,主要从事多项前沿科技在金融期货行业的技术研究与创新实践应用工作
    苗仲辰(1988- ),男,博士,就职于上海金融期货信息技术有限公司,主要研究方向为AI算法、数据挖掘、科技监管场景分析等
    林越峰(1990- ),男,博士,就职于上海金融期货信息技术有限公司,主要研究方向为自然语言处理、时序预测等
    项雅丽(1995- ),女,复旦大学计算机科学技术学院硕士生,主要研究方向为数据挖掘、网络表示学习
    熊贇(1980- ),女,博士,复旦大学计算机科学技术学院教授、博士生导师,主要研究方向为数据科学、数据挖掘和大数据处理
  • 基金资助:
    国家自然科学基金资助项目(U1636207);国家自然科学基金资助项目(U1936213)

A semi-supervised learning financial news classification algorithm

Xiaolong ZHANG1,2, Long ZHI1,2, Jian GAO3, Zhongchen MIAO3, Yuefeng LIN3, Yali XIANG1,2, Yun XIONG1,2   

  1. 1 School of Computer Science and Technology, Fudan University, Shanghai 200438, China
    2 Shanghai Key Laboratory of Data Science, Shanghai 200438, China
    3 Shanghai Financial Futures Information Technology Co., Ltd., Shanghai 200120, China
  • Online:2022-03-15 Published:2022-03-01
  • Supported by:
    The National Natural Science Foundation of China(U1636207);The National Natural Science Foundation of China(U1936213)

摘要:

对金融文本进行分类是一项常见的用于识别金融风险的任务。传统的金融新闻文本分类方法需要大量的已知类别文本来训练分类器,然而标注金融新闻文本标签不仅需要专业的金融背景知识,而且耗时耗力。为了减少对已知类别文本的依赖,提出了一个基于半监督学习的金融文本分类算法,该算法采用有监督学习和无监督学习的一致性训练方式,以更好地利用未知类别的文本数据;针对金融领域文本引入无监督数据增强方法,即对特定任务使用特定目标的数据增强方法,以产生更有效的数据。在多个金融文本数据集上开展的实验证明,相比其他文本分类算法,提出的算法在有效性上有明显提升。

关键词: 自然语言处理, 文本分类, 半监督学习, 金融

Abstract:

Classifying financial texts is a common task for identifying financial risks.Traditional financial news classification requires a large number of labeled texts to train the classifier.However, labeling financial news requires not only professional financial background knowledge, but also time-consuming and labor-intensive.In order to reduce the dependence on labeled text, a semi-supervised learning financial text classification algorithm- SSF (semi-supervised learning financial news classification algorithm) was proposed, which uses a consistent training method of supervised learning and unsupervised learning to improve the use of unlabeled data.And unsupervised data augmentation for financial texts was introduced, that is, use specific target data augmentation methods for specific tasks to generate more effective data.Experiments on multiple financial news data sets were conducted to verify that the proposed SSF algorithm has a significant improvement in effectiveness compared with other text classification algorithms.

Key words: natural language processing, text classification, semi-supervised learning, finance

中图分类号: 

No Suggested Reading articles found!