电信科学 ›› 2019, Vol. 35 ›› Issue (5): 78-85.doi: 10.11959/j.issn.1000-0801.2019072

• 研究与开发 • 上一篇    下一篇

基于列表监督的Hash排序算法

杨安邦,钱江波(),董一鸿,陈华辉   

  1. 宁波大学信息科学与工程学院,浙江 宁波 315211
  • 修回日期:2019-04-12 出版日期:2019-05-20 发布日期:2019-05-21
  • 作者简介:杨安邦(1992- ),男,宁波大学信息科学与工程学院硕士生,主要研究方向为大数据、数据挖掘。|钱江波(1974- ),男,博士,宁波大学信息科学与工程学院教授,主要研究方向为数据处理与挖掘、多维索引与查询优化、机器学习。|董一鸿(1969- ),男,博士,宁波大学信息科学与工程学院教授,主要研究方向为大数据、数据挖掘和人工智能。|陈华辉(1964- ),男,博士,宁波大学信息科学与工程学院教授,主要研究方向为数据处理与挖掘、云计算。
  • 基金资助:
    国家自然科学基金资助项目(61472194);国家自然科学基金资助项目(61572266);浙江省自然科学基金资助项目(LY16F020003)

A ranking hashing algorithm based on listwise supervision

Anbang YANG,Jiangbo QIAN(),Yihong DONG,Huahui CHEN   

  1. College of Information Science and Engineering,Ningbo University,Ningbo 315211,China
  • Revised:2019-04-12 Online:2019-05-20 Published:2019-05-21
  • Supported by:
    The National Natural Science Foundation of China(61472194);The National Natural Science Foundation of China(61572266);The Natural Science Foundation of Zhejiang Province of China(LY16F020003)

摘要:

Hash学习技术目前被广泛应用于大规模数据的相似性查找中,其通过将数据转化成二进制编码的形式,同时提高查找速度和降低存储代价。目前,大多数Hash排序算法通过比较数据在欧氏空间和海明空间的排序一致性来构造损失函数,然而,在海明空间的排序过程中,因为海明距离是离散的整数值,可能存在多个数据点共享相同的海明距离,这样就无法准确地排序。针对这一问题,将编码后的数据切分成几个长度相同的子空间,并为每个子空间设置不同的权重,比较时,再根据不同的子空间权重来计算海明距离。实验结果表明,与其他Hash学习算法相比,本文算法能够有效地对海明空间中的数据进行排序,并提高查询的准确性。

关键词: Hash学习, 相似性查找, Hash排序, 子空间权重

Abstract:

Recently,learning to hash technology has been used for the similarity search of large-scale data.It can simultaneous increase the search speed and reduce the storage cost through transforming the data into binary codes.At present,most ranking hashing algorithms compare the consistency of data in the Euclidean space and the Hamming space to construct the loss function.However,because the Hamming distance is a discrete integer value,there may be many data points sharing the same Hamming distance result in the exact ranking cannot be performed.To address this challenging issue,the encoded data was divided into several subspaces with the same length.Each subspace was set with different weights.The Hamming distance was calculated according to different subspace weights.The experimental results show that this algorithm can effectively sort the data in the Hamming space and improve the accuracy of the query compared with other learning to hash algorithms.

Key words: learning to hash, similarity search, ranking hashing, subspaces with different weights

中图分类号: 

No Suggested Reading articles found!