大数据 ›› 2021, Vol. 7 ›› Issue (5): 111-130.doi: 10.11959/j.issn.2096-0271.2021052

• 专栏:数据驱动的优化 • 上一篇    下一篇

基于优化反馈的组合在线学习

孔芳1, 杨悦然1, 陈卫2, 李帅1   

  1. 1 上海交通大学约翰·霍普克罗夫特计算机科学中心,上海 200240
    2 微软亚洲研究院,北京 100080
  • 出版日期:2021-09-15 发布日期:2021-09-01
  • 作者简介:孔芳(1998- ),女,上海交通大学电子信息与电气工程学院博士生,主要研究方向为组合在线学习、在线影响力最大化等
    杨悦然(1999- ),女,上海交通大学数学科学学院在读,主要研究方向为组合在线学习等
    陈卫(1968- ),男,博士,微软亚洲研究院高级研究员,中国科学院计算技术研究所客座研究员,中国计算机学会大数据专家委员会和理论计算机科学专业委员会委员,IEEE Fellow,《大数据》期刊编委。主要研究方向为在线学习和优化、社交和信息网络、网络博奕论和经济学、分布式计算、容错等
    李帅(1988- ),女,上海交通大学约翰·霍普克罗夫特计算机科学中心助理教授,主要研究方向为多臂老虎机、在线学习、机器学习理论、强化学习、推荐系统等
  • 基金资助:
    国家自然科学基金资助项目(62006151);国家自然科学基金资助项目(62076161);上海市青年科技英才扬帆计划

Combinatorial online learning based on optimizing feedbacks

Fang KONG1, Yueran YANG1, Wei CHEN2, Shuai LI1   

  1. 1 John Hopcroft Center for Computer Science, Shanghai Jiao Tong University, Shanghai 200240, China
    2 Microsoft Research Asia, Beijing 100080, China
  • Online:2021-09-15 Published:2021-09-01
  • Supported by:
    The National Natural Science Foundation of China(62006151);The National Natural Science Foundation of China(62076161);Shanghai Sailing Program

摘要:

组合在线学习问题研究如何在与环境的交互过程中学习未知参数,逐步找到最优的目标组合。该问题有丰富的应用场景,如广告投放、搜索和推荐等。首先阐述了组合在线学习问题的定义及其框架——组合多臂老虎机问题,归纳了此框架下的经典算法和研究进展;然后具体介绍了该问题的两个实际应用——在线影响力最大化和在线排序学习问题,以及其研究进展;最后展望了组合在线学习问题的未来研究方向。

关键词: 组合多臂老虎机, 在线学习, 在线影响力最大化, 在线排序学习

Abstract:

Combinatorial online learning studies how to learn the unknown parameters and gradually find the optimal combination of targets during the interactions with the environment.This problem has a wide range of applications including advertisement placement, searching and recommendation.Firstly, the definition of combinatorial online learning and its general framework – the problem of combinatorial multi-armed bandits were introduced, and its traditional algorithms and research progress were summarized.Then, the related works of two specific applications, online influence maximization and online learning to rank, were introduced.Finally, the prospective directions of further researches on combinatorial online learning were discussed.

Key words: combinatorial multi-armed bandits, online learning, online influence maximization, online learning to rank

中图分类号: 

No Suggested Reading articles found!