文本摘要研究进展与趋势

doi:10.11959/j.issn.2096-109x.2018048

[1]

CHENG

J

, LAPATA

M

.

Neural summarization by extracting sentences and words

[J]. ar Xiv preprint ar Xiv:1603.07252, 2016.

[本文引用: 1]

[2]

NEMA

P

, KHAPRA

M

, LAHA

A

,et al.

Diversity driven attention model for query-based abstractive summarization

[J]. ar Xiv preprint ar Xiv:1704.08300, 2017.

[本文引用: 1]

[3]

LI

P

, LAM

W

, BING

L

,et al.

Deep recurrent generative decoder for abstractive text summarization

[J]. ar Xiv preprint ar Xiv:1708.00625, 2017.

[本文引用: 1]

[4]

BING

L

, LI

P

, LIAO

Y

,et al.

Abstractive multi-document summarization via phrase selection and merging

[J]. ar Xiv preprint ar Xiv:1506.01597, 2015.

[本文引用: 1]

[5]

LI

C

, QIAN

X

, LIU

Y

.

Using supervised bigram-based ilp for extractive summarization

[C]// The 51st Annual Meeting of the Association for Computational Linguistics. 2013: 1004-1013.

[本文引用: 1]

[6]

VEENA

G

, GUPTA

D

, JAGANADH

J

,et al.

A graph based conceptual mining model for abstractive text summarization

[J]. Indian Journal of Science and Technology, 2016,9(S1).

[本文引用: 1]

[7]

DANESH

S

, SUMNER

T

, MARTIN

J H

.

Sgrank:combining statistical and graphical methods to improve the state of the art in unsupervised keyphrase extraction

[C]// The Fourth Joint Conference on Lexical and Computational Semantics. 2015: 117-126.

[本文引用: 1]

[8]

FLORESCU

C

, CARAGEA

C

.

Position Rank:an unsupervised approach to keyphrase extraction from scholarly documents

[C]// The 55th Annual Meeting of the Association for Computational Linguistics. 2017: 1105-1115.

[本文引用: 1]

[9]

LUHN

H P

.

The automatic creation of literature abstracts

[J]. IBM Journal of Research and Development, 1958,2(2): 159-165.

[本文引用: 1]

[10]

BAXENDALE

P B

.

Machine-made index for technical literature—an experiment

[J]. IBM Journal of Research and Development, 1958,2(4): 354-361.

[本文引用: 1]

[11]

EDMUNDSON

H P

.

New methods in automatic extracting

[J]. Journal of the ACM, 1969,16(2): 264-285.

[本文引用: 1]

[12]

SALTON

G

, YU

C T

.

On the construction of effective vocabularies for information retrieval

[C]// ACM SIGIR Forum. 1973: 48-60.

[本文引用: 1]

[13]

施聪莺, 徐朝军, 杨晓江 .

TFIDF 算法研究综述

[J]. 计算机应用, 2009,29(B06): 167-170.

[本文引用: 1]

SHI

C Y

, XU

C J

, YANG

X J

.

Study of TFIDF algorithm

[J]. Journal of Computer Applications, 2009,29(B06): 167-170.

[本文引用: 1]

[14]

徐文海, 温有奎 .

一种基于 TFIDF 方法的中文关键词抽取算法

[J]. 情报理论与实践, 2008,31(2): 298-302.

[本文引用: 1]

XU

W H

, WEN

Y K

.

A Chinese keyword extraction algorithm based on TFIDF method

[J]. Information Studies:Theory ＆ Application, 2008,31(2): 298-302.

[本文引用: 1]

[15]

SUQIN

Z B S H M

.

An improved text feature weighting algorithm based on TFIDF

[J]. Computer Applications and Software, 2011,2: 7.

[本文引用: 1]

[16]

李静月, 李培峰, 朱巧明 .

一种改进的 TFIDF 网页关键词提取方法

[J]. 计算机应用与软件, 2011,28(5): 25-27.

[本文引用: 1]

LI

J Y

, LI

P F

, ZHU

Q M

.

An improved TFIDF-based approach to extract key words from Wed pages

[J]. Computer Applications and Software, 2011,28(5): 25-27.

[本文引用: 1]

[17]

EL-BELTAGY

S R

, RAFEA

A

.

Kp-miner:participation in semeval-2

[C]// The 5th International Workshop on Semantic Evaluation, 2010: 190-193.

[本文引用: 1]

[18]

DANESH

S

, SUMNER

T

, MARTIN

J H

.

Sgrank:combining statistical and graphical methods to improve the state of the art in unsupervised keyphrase extraction

[C]// The Fourth Joint Conference on Lexical and Computational Semantics. 2015: 117-126.

[本文引用: 1]

[19]

FLORESCU

C

, CARAGEA

C

.

Position Rank:an unsupervised approach to keyphrase extraction from scholarly documents

[C]// The 55th Annual Meeting of the Association for Computational Linguistics, 2017: 1105-1115.

[本文引用: 1]

[20]

PADMALAHARI

E

, KUMAR

D V N S

, PRASAD

S

.

Automatic text summarization with statistical and linguistic features using successive thresholds

[C]// 2014 International Conference on Advanced Communication Control and Computing Technologies (ICACCCT). 2014: 1519-1524.

[本文引用: 1]

[21]

MILLER

G A

.

Word Net:a lexical database for English

[J]. Communications of the ACM, 1995,38(11): 39-41.

[本文引用: 2]

[22]

BARZILAY

R

, ELHADAD

M

.

Using lexical chains for text summarization

[J]. Advances in Automatic Text Summarization, 1999: 111-121.

[本文引用: 1]

[23]

JAIN

A

, GAUR

A

.

Summarizing long historical documents using significance and utility calculation using Word Net

[J]. Imperial Journal of Interdisciplinary Research, 2017,3(3).

[本文引用: 1]

[24]

SILBER

H G

, MCCOY

K F

.

Efficient text summarization using lexical chains

[C]// The 5th International Conference on Intelligent user interfaces. ACM, 2000: 252-255.

[本文引用: 1]

[25]

KOLLA

M

.

Automatic text summarization using lexical chains:algorithms and experiments

[D]. University of Lethbridge, 2004.

[本文引用: 1]

[26]

POURVALI

M

, ABADEH

M S

.

Automated text summarization base on lexicales chain and graph using of wordnet and wikipedia knowledge base

[J]. ar Xiv preprint ar Xiv:1203.3586, 2012.

[本文引用: 1]

[27]

HOU

S

, HUANG

Y

, FEI

C

,et al.

Holographic lexical chain and its application in chinese text summarization

[C]// Asia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint Conference on Web and Big Data. 2017: 266-281.

[本文引用: 1]

[28]

LYNN

H M

, CHOI

C

, KIM

P

.

An improved method of automatic text summarization for Web contents using lexical chain with semantic-related terms

[J]. Soft Computing, 2018,22(12): 4013-4023.

[本文引用: 1]

[29]

PAL

A R

, SAHA

D

.

An approach to automatic text summarization using Word Net

[C]// IEEE International Conference on Advance Computing Conference (IACC). 2014: 1169-1173.

[本文引用: 1]

[30]

PAGE

L

, BRIN

S

, MOTWANI

R

,et al.

The Page Rank citation ranking:bringing order to the Web

[R]. Stanford Info Lab, 1999.

[本文引用: 1]

[31]

KLEINBERG

J M

, KUMAR

R

, RAGHAVAN

P

,et al.

The Web as a graph:measurements,models,and methods

[C]// International Computing and Combinatorics Conference, 1999: 1-17.

[本文引用: 1]

[32]

MIHALCEA

R

, .

Graph-based ranking algorithms for sentence extraction,applied to text summarization

[C]// Proceedings of the ACL 2004 on Interactive Poster And Demonstration Sessions. Association for Computational Linguistics, 2004:20.

[本文引用: 1]

[33]

WAN

X

, XIAO

J

.

Single document keyphrase extraction using neighborhood knowledge

[C]// AAAI. 2008,8: 855-860.

[本文引用: 1]

[34]

GOLLAPALLI

S D

, CARAGEA

C

.

Extracting keyphrases from research papers using citation networks

[C]// AAAI. 2014: 1629-1635.

[本文引用: 1]

[35]

KHAN

A

, SALIM

N

, FARMAN

H

,et al.

Abstractive text summarization based on improved semantic graph approach

[J]. International Journal of Parallel Programming, 2018: 1-25.

[本文引用: 1]

[36]

AL-KHASSAWNEH

Y A

, SALIM

N

, JARRAH

M

.

Improving triangle-graph based text summarization using hybrid similarity function

[J]. Indian Journal of Science and Technology, 2017,10(8).

[本文引用: 1]

[37]

WEI

F

, LI

W

, LU

Q

,et al.

A document-sensitive graph model for multi-document summarization

[J]. Knowledge and Information Systems, 2010,22(2): 245-259.

[本文引用: 1]

[38]

GE

S S

, ZHANG

Z

, HE

H

.

Weighted graph model based sentence clustering and ranking for document summarization

[C]// 2011 4th International Conference on Interaction Sciences (ICIS). 2011: 90-95.

[本文引用: 1]

[39]

NGUYEN-HOANG

T A

, NGUYEN

K

, TRAN

Q V

.

TSGVi:a graph-based summarization system for Vietnamese documents

[J]. Journal of Ambient Intelligence and Humanized Computing, 2012,3(4): 305-313.

[本文引用: 1]

[40]

耿焕同, 蔡庆生, 赵鹏 ,等.

一种基于词共现图的文档自动摘要研究

[J]. 情报学报, 2005,24(6): 652-1.

[本文引用: 1]

GENG

H T

, CAI

Q S

, ZHAO

P

,et al.

Research on document automatic summarization based on word co-occurrence

[J]. Journal of the China Society for Scientific and Technical Information, 2005,24(6): 652-1.

[本文引用: 1]

[41]

SEHGAL

S

, KUMAR

B

, RAMPAL

L

,et al.

A modification to graph based approach for extraction based automatic text summarization

[M]// Progress in Advanced Computing and Intelligent Engineering. Singapore Springer Press, 2018: 373-378.

[本文引用: 1]

[42]

YOUSEFI-AZAR

M

, HAMEY

L

.

Text summarization using unsupervised deep learning

[J]. Expert Systems with Applications, 2017,68: 93-105.

[本文引用: 1]

[43]

ARRAS

L

, HORN

F

, MONTAVON

G

,et al.

What is relevant in a text document? an interpretable machine learning approach

[J]. PloSone, 2017,12(8):e0181142

[本文引用: 1]

[44]

THU

H N T

.

An optimization text summarization method based on naive bayes and topic word for single syllable language

[J]. Applied Mathematical Sciences, 2014,8(3): 99-115.

[本文引用: 1]

[45]

SILVA

G

, FERREIRA

R

, LINS

R D

,et al.

Automatic text document summarization based on machine learning

[C]// 2015 ACM Symposium on Document Engineering. ACM, 2015: 191-194.

[本文引用: 1]

[46]

NISHIKAWA

H

, ARITA

K

, TANAKA

K

,et al.

Learning to generate coherent summary with discriminative hidden semi-markov model

[C]// The 25th International Conference on Computational Linguistics:Technical Papers. 2014: 1648-1659.

[本文引用: 1]

[47]

ALLAHYARI

M

, POURIYEH

S

, ASSEFI

M

,et al.

A brief survey of text mining:classification,clustering and extraction techniques

[J]. ar Xiv preprint ar Xiv:1707.02919, 2017.

[本文引用: 1]

[48]

KUPIEC

J

, PEDERSEN

J

, CHEN

F

.

A trainable document summarizer

[C]// The 18th annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1995: 68-73.

[本文引用: 1]

[49]

CONROY

J M,O'LEARY D P

, .

Text summarization via hidden markov models

[C]// The 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2001: 406-407.

[本文引用: 1]

[50]

LIN

C Y

, .

Training a selection function for extraction

[C]// The Eighth International Conference on Information and Knowledge Management. ACM, 1999: 55-62.

[本文引用: 1]

[51]

HINTON

G E

, OSINDERO

S

, TEH

Y W

.

A fast learning algorithm for deep belief nets

[J]. Neural Computation, 2006,18(7): 1527-1554.

[本文引用: 1]

[52]

MRKŠIĆ

N

, VULIĆ

I

, SÉAGHDHA

D Ó

,et al.

Semantic specialisation of distributional word vector spaces using monolingual and cross-lingual constraints

[J]. ar Xiv preprint ar Xiv:1706.00374, 2017.

[本文引用: 1]

[53]

XIONG

Z

, SHEN

Q

, WANG

Y

,et al.

Paragraph vector representation based on word to vector and CNN learning

[J]. CMC:Computers,Materials ＆ Continua, 2018,55(2): 213-227.

[本文引用: 1]

[54]

WANG

X

, ZHANG

H

, LIU

Y

.

Sentence vector model based on implicit word vector expression

[J]. IEEE Access, 2018,6: 17455-17463.

[本文引用: 1]

[55]

SUTSKEVER

I

, VINYALS

O

, Le

Q V

.

Sequence to sequence learning with neural networks

[C]// Advances in neural information processing systems. 2014: 3104-3112.

[本文引用: 1]

[56]

NALLAPATI

R

, XIANG

B

, ZHOU

B

.

Sequence-to-sequence rnns for text summarization

[J]. ar Xiv preprint ar Xiv:1602.06023v1, 2016.

[本文引用: 1]

[57]

RUSH

A M

, CHOPRA

S

, WESTON

J

.

A neural attention model for abstractive sentence summarization

[J]. ar Xiv preprint ar Xiv:1509.00685, 2015.

[本文引用: 2]

[58]

CHOPRA

S

, AULI

M

, RUSH

A M

.

Abstractive sentence summarization with attentive recurrent neural networks

[C]// The 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. 2016: 93-98.

[本文引用: 2]

[59]

NALLAPATI

R

, ZHOU

B

, GULCEHRE

C

,et al.

Abstractive text summarization using sequence-to-sequence RNNS and beyond

[J]. ar Xiv preprint ar Xiv:1602.06023v5, 2016.

[本文引用: 1]

[60]

CAO

Z

, LI

W

, LI

S

,et al.

Attsum:Joint learning of focusing and summarization with neural attention

[J]. ar Xiv preprint ar Xiv:1604.00125, 2016.

[本文引用: 1]

[61]

SEE

A

, LIU

P J

, Manning

C D

.

Get to the point:summarization with pointer-generator networks

[J]. ar Xiv preprint ar Xiv:1704.04368, 2017.

[本文引用: 1]

[62]

ABADI

M

, BARHAM

P

, CHEN

J

,et al.

Tensor Flow:a system for large-scale machine learning

[C]// OSDI. 2016: 265-283.

[本文引用: 1]

[63]

SUTSKEVER

I

, VINYALS

O

, LE

Q V

.

Sequence to sequence learning with neural networks

[C]// Advances in Neural Information Processing Systems. 2014: 3104-3112.

[本文引用: 1]

[64]

GEHRING

J

, AULI

M

, GRANGIER

D

,et al.

Convolutional sequence to sequence learning

[J]. ar Xiv preprint ar Xiv:1705.03122, 2017.

[本文引用: 1]

[65]

LIU

L

, LU

Y

, YANG

M

,et al.

Generative adversarial network for abstractive text summarization

[J]. ar Xiv preprint ar Xiv:1711.09357, 2017.

[本文引用: 1]

[66]

GOODFELLOW

I

, POUGET-ABADIE

J

, MIRZA

M

,et al.

Generative adversarial nets

[C]// Advances in Neural Information Processing Systems. 2014: 2672-2680.

[本文引用: 1]

[67]

TAN

J

, WAN

X

, XIAO

J

.

Abstractive document summarization with a graph-based attentional neural model

[C]// The 55th Annual Meeting of the Association for Computational Linguistics. 2017: 1171-1181.

[本文引用: 1]

[68]

MIHALCEA

R

, TARAU

P

.

Textrank:bringing order into text

[C]// Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. 2004.

[本文引用: 1]

[69]

ERKAN

G

, RADEV

D R

.

Lexrank:graph-based lexical centrality as salience in text summarization

[J]. Journal of Artificial Intelligence Research, 2004,22: 457-479.

[本文引用: 1]

Neural summarization by extracting sentences and words

1

2016

... 文本摘要有多种分类方法，按照摘要方法划分可以分为抽取式摘要^[1]方法和生成式摘要^[2]方法.抽取式摘要方法通过抽取文档中的句子生成摘要，通过对文档中句子的得分进行计算，得分代表重要性程度，得分越高代表句子越重要，然后通过依次选取得分最高的若干个句子组成摘要，摘要的长度取决于压缩率.生成式摘要方法不是单纯地利用原文档中的单词或短语组成摘要，而是从原文档中获取主要思想后以不同的表达方式将其表达出来.生成式摘要方法为了传达原文档的主要观点，可以重复使用原文档中的短语和语句，但总体上来说，摘要需要用作者自己的话来概括表达.生成式摘要方法需要利用自然语言理解技术对原文档进行语法语义的分析，然后对信息进行融合，通过自然语言生成的技术生成新的文本摘要. ...

Diversity driven attention model for query-based abstractive summarization

1

2017

... 文本摘要有多种分类方法，按照摘要方法划分可以分为抽取式摘要^[1]方法和生成式摘要^[2]方法.抽取式摘要方法通过抽取文档中的句子生成摘要，通过对文档中句子的得分进行计算，得分代表重要性程度，得分越高代表句子越重要，然后通过依次选取得分最高的若干个句子组成摘要，摘要的长度取决于压缩率.生成式摘要方法不是单纯地利用原文档中的单词或短语组成摘要，而是从原文档中获取主要思想后以不同的表达方式将其表达出来.生成式摘要方法为了传达原文档的主要观点，可以重复使用原文档中的短语和语句，但总体上来说，摘要需要用作者自己的话来概括表达.生成式摘要方法需要利用自然语言理解技术对原文档进行语法语义的分析，然后对信息进行融合，通过自然语言生成的技术生成新的文本摘要. ...

Deep recurrent generative decoder for abstractive text summarization

1

2017

... 按照文档数量划分，可以分为单文档摘要^[3]方法和多文档摘要^[4]方法.单文档摘要方法是指针对单个文档，对其内容进行抽取总结生成摘要；多文档摘要方法是指从包含多份文档的文档集合中生成一份能够概括这些文档中心内容的摘要. ...

Abstractive multi-document summarization via phrase selection and merging

1

2015

... 按照文档数量划分，可以分为单文档摘要^[3]方法和多文档摘要^[4]方法.单文档摘要方法是指针对单个文档，对其内容进行抽取总结生成摘要；多文档摘要方法是指从包含多份文档的文档集合中生成一份能够概括这些文档中心内容的摘要. ...

Using supervised bigram-based ilp for extractive summarization

1

2013

... 按照文本摘要的学习方法可分为有监督^[5]方法和无监督^[6]方法.有监督方法需要从文件中选取主要内容作为训练数据，大量的注释和标签数据是学习所需要的.这些文本摘要的系统在句子层面被理解为一个二分类问题，其中，属于摘要的句子称为正样本，不属于摘要的句子称为负样本.机器学习中的支持向量机（SVM,support vector machine）和神经网络也会用到这样分类的方法.无监督^[7,8]的文本摘要系统不需要任何训练数据，它们仅通过对文档进行检索即可生成摘要. ...

A graph based conceptual mining model for abstractive text summarization

1

2016

... 按照文本摘要的学习方法可分为有监督^[5]方法和无监督^[6]方法.有监督方法需要从文件中选取主要内容作为训练数据，大量的注释和标签数据是学习所需要的.这些文本摘要的系统在句子层面被理解为一个二分类问题，其中，属于摘要的句子称为正样本，不属于摘要的句子称为负样本.机器学习中的支持向量机（SVM,support vector machine）和神经网络也会用到这样分类的方法.无监督^[7,8]的文本摘要系统不需要任何训练数据，它们仅通过对文档进行检索即可生成摘要. ...

Sgrank:combining statistical and graphical methods to improve the state of the art in unsupervised keyphrase extraction

1

2015

... 按照文本摘要的学习方法可分为有监督^[5]方法和无监督^[6]方法.有监督方法需要从文件中选取主要内容作为训练数据，大量的注释和标签数据是学习所需要的.这些文本摘要的系统在句子层面被理解为一个二分类问题，其中，属于摘要的句子称为正样本，不属于摘要的句子称为负样本.机器学习中的支持向量机（SVM,support vector machine）和神经网络也会用到这样分类的方法.无监督^[7,8]的文本摘要系统不需要任何训练数据，它们仅通过对文档进行检索即可生成摘要. ...

Position Rank:an unsupervised approach to keyphrase extraction from scholarly documents

1

2017

... 按照文本摘要的学习方法可分为有监督^[5]方法和无监督^[6]方法.有监督方法需要从文件中选取主要内容作为训练数据，大量的注释和标签数据是学习所需要的.这些文本摘要的系统在句子层面被理解为一个二分类问题，其中，属于摘要的句子称为正样本，不属于摘要的句子称为负样本.机器学习中的支持向量机（SVM,support vector machine）和神经网络也会用到这样分类的方法.无监督^[7,8]的文本摘要系统不需要任何训练数据，它们仅通过对文档进行检索即可生成摘要. ...

The automatic creation of literature abstracts

1

1958

... 抽取式文本摘要方法的关键问题是从原文档中抽取出重要性高的若干句子^[9].研究初期是以统计学为支撑，统计学的方法是基于统计特征，如词频、句子中心性（即与其他句子的相似性）、句子位置、句子与标题的相似性、句子的相对长度等统计特征来生成摘要的.首先使用“词频”这一简单的文本特征对文档的重要句子和词组进行抽取生成，根据经验可知，除去停用词以外，文中出现频率越高的单词，其重要性也就越高.根据单词的词频高低分别设置相应的词权重，词频越高，对应的权重也就越高；句子的权重是组成句子单词的权重之和.然后从文档中抽取权重高的单词和句子组成摘要，这就是简单的基于词频的文本摘要方法. ...

Machine-made index for technical literature—an experiment

1

1958

... 句子在段落中的位置对句子的重要性影响很大，根据经验可知，一个段落的首尾句成为概括段落中心思想主题句的概率比其他位置句子的概率要高.Baxendale等^[10]从句子位置的特征出发，通过计算文档段落首尾句能够概括主题的主题句概率，选取得分最高的若干句子生成文本摘要.Edmundson等^[11]在研究中也指出，线索词（如“几乎不”“不可能”等类似的特定词汇）对句子重要性也起到了一定的影响作用.他们将词频、句子位置、线索词、标题词等多个特征组合起来作为衡量句子重要性的综合指标，在质量上取得了一定的改善. ...

New methods in automatic extracting

1

1969

... 句子在段落中的位置对句子的重要性影响很大，根据经验可知，一个段落的首尾句成为概括段落中心思想主题句的概率比其他位置句子的概率要高.Baxendale等^[10]从句子位置的特征出发，通过计算文档段落首尾句能够概括主题的主题句概率，选取得分最高的若干句子生成文本摘要.Edmundson等^[11]在研究中也指出，线索词（如“几乎不”“不可能”等类似的特定词汇）对句子重要性也起到了一定的影响作用.他们将词频、句子位置、线索词、标题词等多个特征组合起来作为衡量句子重要性的综合指标，在质量上取得了一定的改善. ...

On the construction of effective vocabularies for information retrieval

1

1973

... 其他著名的方法有 TF-IDF（词频−逆向文件频率），它是由Salon最先提出的^[12]，这种统计的方法通过词频和逆向文件频率共同评估一个词在一个文件集或语料库中的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降.利用 TF-IDF 生成文本摘要的基本思路是通过背景语料统计出各个词的 TF-IDF 值，将其作为重要性得分的权值，接着根据各个词的 TF-IDF 值累加求和计算得到段落中各个句子的TF-IDF值，将其作为该句的重要性得分，然后将句子按照重要性得分排序，依据文本摘要的大小依次选取重要性得分从高到低的若干个句子组成摘要.这种算法在词频算法的基础上引入一个逆文档因子，它能够有效地区分出高频无效词，在一定基础上改进了一般词频算法.其后，基于 TF-IDF 的方法被广泛应用于单词的重要性识别^{[13,14,15,16]}. ...

TFIDF 算法研究综述

1

2009

... 其他著名的方法有 TF-IDF（词频−逆向文件频率），它是由Salon最先提出的^[12]，这种统计的方法通过词频和逆向文件频率共同评估一个词在一个文件集或语料库中的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降.利用 TF-IDF 生成文本摘要的基本思路是通过背景语料统计出各个词的 TF-IDF 值，将其作为重要性得分的权值，接着根据各个词的 TF-IDF 值累加求和计算得到段落中各个句子的TF-IDF值，将其作为该句的重要性得分，然后将句子按照重要性得分排序，依据文本摘要的大小依次选取重要性得分从高到低的若干个句子组成摘要.这种算法在词频算法的基础上引入一个逆文档因子，它能够有效地区分出高频无效词，在一定基础上改进了一般词频算法.其后，基于 TF-IDF 的方法被广泛应用于单词的重要性识别^{[13,14,15,16]}. ...

TFIDF 算法研究综述

1

2009

... 其他著名的方法有 TF-IDF（词频−逆向文件频率），它是由Salon最先提出的^[12]，这种统计的方法通过词频和逆向文件频率共同评估一个词在一个文件集或语料库中的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降.利用 TF-IDF 生成文本摘要的基本思路是通过背景语料统计出各个词的 TF-IDF 值，将其作为重要性得分的权值，接着根据各个词的 TF-IDF 值累加求和计算得到段落中各个句子的TF-IDF值，将其作为该句的重要性得分，然后将句子按照重要性得分排序，依据文本摘要的大小依次选取重要性得分从高到低的若干个句子组成摘要.这种算法在词频算法的基础上引入一个逆文档因子，它能够有效地区分出高频无效词，在一定基础上改进了一般词频算法.其后，基于 TF-IDF 的方法被广泛应用于单词的重要性识别^{[13,14,15,16]}. ...

一种基于 TFIDF 方法的中文关键词抽取算法

1

2008

... 其他著名的方法有 TF-IDF（词频−逆向文件频率），它是由Salon最先提出的^[12]，这种统计的方法通过词频和逆向文件频率共同评估一个词在一个文件集或语料库中的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降.利用 TF-IDF 生成文本摘要的基本思路是通过背景语料统计出各个词的 TF-IDF 值，将其作为重要性得分的权值，接着根据各个词的 TF-IDF 值累加求和计算得到段落中各个句子的TF-IDF值，将其作为该句的重要性得分，然后将句子按照重要性得分排序，依据文本摘要的大小依次选取重要性得分从高到低的若干个句子组成摘要.这种算法在词频算法的基础上引入一个逆文档因子，它能够有效地区分出高频无效词，在一定基础上改进了一般词频算法.其后，基于 TF-IDF 的方法被广泛应用于单词的重要性识别^{[13,14,15,16]}. ...

一种基于 TFIDF 方法的中文关键词抽取算法

1

2008

... 其他著名的方法有 TF-IDF（词频−逆向文件频率），它是由Salon最先提出的^[12]，这种统计的方法通过词频和逆向文件频率共同评估一个词在一个文件集或语料库中的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降.利用 TF-IDF 生成文本摘要的基本思路是通过背景语料统计出各个词的 TF-IDF 值，将其作为重要性得分的权值，接着根据各个词的 TF-IDF 值累加求和计算得到段落中各个句子的TF-IDF值，将其作为该句的重要性得分，然后将句子按照重要性得分排序，依据文本摘要的大小依次选取重要性得分从高到低的若干个句子组成摘要.这种算法在词频算法的基础上引入一个逆文档因子，它能够有效地区分出高频无效词，在一定基础上改进了一般词频算法.其后，基于 TF-IDF 的方法被广泛应用于单词的重要性识别^{[13,14,15,16]}. ...

An improved text feature weighting algorithm based on TFIDF

1

2011

... 其他著名的方法有 TF-IDF（词频−逆向文件频率），它是由Salon最先提出的^[12]，这种统计的方法通过词频和逆向文件频率共同评估一个词在一个文件集或语料库中的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降.利用 TF-IDF 生成文本摘要的基本思路是通过背景语料统计出各个词的 TF-IDF 值，将其作为重要性得分的权值，接着根据各个词的 TF-IDF 值累加求和计算得到段落中各个句子的TF-IDF值，将其作为该句的重要性得分，然后将句子按照重要性得分排序，依据文本摘要的大小依次选取重要性得分从高到低的若干个句子组成摘要.这种算法在词频算法的基础上引入一个逆文档因子，它能够有效地区分出高频无效词，在一定基础上改进了一般词频算法.其后，基于 TF-IDF 的方法被广泛应用于单词的重要性识别^{[13,14,15,16]}. ...

一种改进的 TFIDF 网页关键词提取方法

1

2011

... 其他著名的方法有 TF-IDF（词频−逆向文件频率），它是由Salon最先提出的^[12]，这种统计的方法通过词频和逆向文件频率共同评估一个词在一个文件集或语料库中的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降.利用 TF-IDF 生成文本摘要的基本思路是通过背景语料统计出各个词的 TF-IDF 值，将其作为重要性得分的权值，接着根据各个词的 TF-IDF 值累加求和计算得到段落中各个句子的TF-IDF值，将其作为该句的重要性得分，然后将句子按照重要性得分排序，依据文本摘要的大小依次选取重要性得分从高到低的若干个句子组成摘要.这种算法在词频算法的基础上引入一个逆文档因子，它能够有效地区分出高频无效词，在一定基础上改进了一般词频算法.其后，基于 TF-IDF 的方法被广泛应用于单词的重要性识别^{[13,14,15,16]}. ...

一种改进的 TFIDF 网页关键词提取方法

1

2011

... 其他著名的方法有 TF-IDF（词频−逆向文件频率），它是由Salon最先提出的^[12]，这种统计的方法通过词频和逆向文件频率共同评估一个词在一个文件集或语料库中的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降.利用 TF-IDF 生成文本摘要的基本思路是通过背景语料统计出各个词的 TF-IDF 值，将其作为重要性得分的权值，接着根据各个词的 TF-IDF 值累加求和计算得到段落中各个句子的TF-IDF值，将其作为该句的重要性得分，然后将句子按照重要性得分排序，依据文本摘要的大小依次选取重要性得分从高到低的若干个句子组成摘要.这种算法在词频算法的基础上引入一个逆文档因子，它能够有效地区分出高频无效词，在一定基础上改进了一般词频算法.其后，基于 TF-IDF 的方法被广泛应用于单词的重要性识别^{[13,14,15,16]}. ...

Kp-miner:participation in semeval-2

1

2010

... El-Beltagy等^[17]提出了提取关键词性能最好的系统 SemEval2010，它利用词频等统计特征过滤不可能是关键词的短语，然后结合 TF-IDF 模型减小对特殊词的影响，并对候选短语进行排序选出文摘句.Danesh等^[18]基于统计启发式算法（如TF-IDF分数和文档中短语的第一个位置）的组合计算每个短语的初始权重. 然后将短语及其初始权重联合，基于图表的算法产生候选关键词的最终排序.Florescu等^[19]在Danesh等的基础上进行了改进，它不仅仅考虑文中每个词在句子中首次出现的位置，还将每个单词在句子中出现的所有位置信息进行聚合来计算相应的词权重，进一步改进统计学特征中词句位置因素对其重要性的影响，在一定程度上改良了文本摘要的质量水平.Padmalahari 等^[20]综合统计特征和语言特征对句子赋予权重，使用连续阈值从给定的输入文本文档中找出重要句子构成文本摘要，摘要质量得到了有效提升. ...

Sgrank:combining statistical and graphical methods to improve the state of the art in unsupervised keyphrase extraction

1

2015

... El-Beltagy等^[17]提出了提取关键词性能最好的系统 SemEval2010，它利用词频等统计特征过滤不可能是关键词的短语，然后结合 TF-IDF 模型减小对特殊词的影响，并对候选短语进行排序选出文摘句.Danesh等^[18]基于统计启发式算法（如TF-IDF分数和文档中短语的第一个位置）的组合计算每个短语的初始权重. 然后将短语及其初始权重联合，基于图表的算法产生候选关键词的最终排序.Florescu等^[19]在Danesh等的基础上进行了改进，它不仅仅考虑文中每个词在句子中首次出现的位置，还将每个单词在句子中出现的所有位置信息进行聚合来计算相应的词权重，进一步改进统计学特征中词句位置因素对其重要性的影响，在一定程度上改良了文本摘要的质量水平.Padmalahari 等^[20]综合统计特征和语言特征对句子赋予权重，使用连续阈值从给定的输入文本文档中找出重要句子构成文本摘要，摘要质量得到了有效提升. ...

Position Rank:an unsupervised approach to keyphrase extraction from scholarly documents

1

2017

... El-Beltagy等^[17]提出了提取关键词性能最好的系统 SemEval2010，它利用词频等统计特征过滤不可能是关键词的短语，然后结合 TF-IDF 模型减小对特殊词的影响，并对候选短语进行排序选出文摘句.Danesh等^[18]基于统计启发式算法（如TF-IDF分数和文档中短语的第一个位置）的组合计算每个短语的初始权重. 然后将短语及其初始权重联合，基于图表的算法产生候选关键词的最终排序.Florescu等^[19]在Danesh等的基础上进行了改进，它不仅仅考虑文中每个词在句子中首次出现的位置，还将每个单词在句子中出现的所有位置信息进行聚合来计算相应的词权重，进一步改进统计学特征中词句位置因素对其重要性的影响，在一定程度上改良了文本摘要的质量水平.Padmalahari 等^[20]综合统计特征和语言特征对句子赋予权重，使用连续阈值从给定的输入文本文档中找出重要句子构成文本摘要，摘要质量得到了有效提升. ...

Automatic text summarization with statistical and linguistic features using successive thresholds

1

2014

... El-Beltagy等^[17]提出了提取关键词性能最好的系统 SemEval2010，它利用词频等统计特征过滤不可能是关键词的短语，然后结合 TF-IDF 模型减小对特殊词的影响，并对候选短语进行排序选出文摘句.Danesh等^[18]基于统计启发式算法（如TF-IDF分数和文档中短语的第一个位置）的组合计算每个短语的初始权重. 然后将短语及其初始权重联合，基于图表的算法产生候选关键词的最终排序.Florescu等^[19]在Danesh等的基础上进行了改进，它不仅仅考虑文中每个词在句子中首次出现的位置，还将每个单词在句子中出现的所有位置信息进行聚合来计算相应的词权重，进一步改进统计学特征中词句位置因素对其重要性的影响，在一定程度上改良了文本摘要的质量水平.Padmalahari 等^[20]综合统计特征和语言特征对句子赋予权重，使用连续阈值从给定的输入文本文档中找出重要句子构成文本摘要，摘要质量得到了有效提升. ...

Word Net:a lexical database for English

2

1995

... 1995 年，Miller^[21]提出了利用生成词汇链的方法来生成摘要，这种方法主要通过对文章的内容进行自然语言分析处理来生成摘要.首先选定候选词的集合，然后根据词汇链之间的相关程度，为每一个候选词选择相应的词汇链，如果候选词与该词汇链之间的相关程度比较高，则将候选词添加到该词汇链中.最后依据词汇链的长度与一致性对其进行综合评分，通过一些启发式方法选取若干词汇链生成最后所需要的摘要.Barzilay等^[22]基于词汇链的摘要方法做出了创新改进，不再用单个词作为分析单元，而是通过WordNet^[21,23]、词性标注工具等对词义进行分析，将原文档中与某个主题相关的词汇集合起来，构成词汇链，词汇链重要性表达式如下. ...

... [21,23]、词性标注工具等对词义进行分析，将原文档中与某个主题相关的词汇集合起来，构成词汇链，词汇链重要性表达式如下. ...

Using lexical chains for text summarization

1

1999

... 1995 年，Miller^[21]提出了利用生成词汇链的方法来生成摘要，这种方法主要通过对文章的内容进行自然语言分析处理来生成摘要.首先选定候选词的集合，然后根据词汇链之间的相关程度，为每一个候选词选择相应的词汇链，如果候选词与该词汇链之间的相关程度比较高，则将候选词添加到该词汇链中.最后依据词汇链的长度与一致性对其进行综合评分，通过一些启发式方法选取若干词汇链生成最后所需要的摘要.Barzilay等^[22]基于词汇链的摘要方法做出了创新改进，不再用单个词作为分析单元，而是通过WordNet^[21,23]、词性标注工具等对词义进行分析，将原文档中与某个主题相关的词汇集合起来，构成词汇链，词汇链重要性表达式如下. ...

Summarizing long historical documents using significance and utility calculation using Word Net

1

2017

... 1995 年，Miller^[21]提出了利用生成词汇链的方法来生成摘要，这种方法主要通过对文章的内容进行自然语言分析处理来生成摘要.首先选定候选词的集合，然后根据词汇链之间的相关程度，为每一个候选词选择相应的词汇链，如果候选词与该词汇链之间的相关程度比较高，则将候选词添加到该词汇链中.最后依据词汇链的长度与一致性对其进行综合评分，通过一些启发式方法选取若干词汇链生成最后所需要的摘要.Barzilay等^[22]基于词汇链的摘要方法做出了创新改进，不再用单个词作为分析单元，而是通过WordNet^[21,23]、词性标注工具等对词义进行分析，将原文档中与某个主题相关的词汇集合起来，构成词汇链，词汇链重要性表达式如下. ...

Efficient text summarization using lexical chains

1

2000

... 选择出强词汇链.确定强词汇链后，通过制定的3 条启发式的规则，为每一个强词汇链抽取一个句子形成最后的摘要.在此基础上，后来还提出了结合修辞结构、修辞学理论等一系列方法对词汇链方法进行改进^[24,25,26].由于传统的词汇链只考虑名词而忽略其他语法部分的信息导致准确率较低，Hou等^[27]在此基础上做了进一步改进优化，分别引入谓词和形容词（副词）的词汇链，三者一起构成全息词汇链（holographic lexical chain）用于中文文本摘要，准确率取得了显著性的提高.Lynn等^[28]通过对常规的词汇链进行增强改进，引入文本中关键词的3个不同文本特征来产生更好的文本相关信息，取得了良好的提升效果. ...

Automatic text summarization using lexical chains:algorithms and experiments

1

2004

... 选择出强词汇链.确定强词汇链后，通过制定的3 条启发式的规则，为每一个强词汇链抽取一个句子形成最后的摘要.在此基础上，后来还提出了结合修辞结构、修辞学理论等一系列方法对词汇链方法进行改进^[24,25,26].由于传统的词汇链只考虑名词而忽略其他语法部分的信息导致准确率较低，Hou等^[27]在此基础上做了进一步改进优化，分别引入谓词和形容词（副词）的词汇链，三者一起构成全息词汇链（holographic lexical chain）用于中文文本摘要，准确率取得了显著性的提高.Lynn等^[28]通过对常规的词汇链进行增强改进，引入文本中关键词的3个不同文本特征来产生更好的文本相关信息，取得了良好的提升效果. ...

Automated text summarization base on lexicales chain and graph using of wordnet and wikipedia knowledge base

1

2012

... 选择出强词汇链.确定强词汇链后，通过制定的3 条启发式的规则，为每一个强词汇链抽取一个句子形成最后的摘要.在此基础上，后来还提出了结合修辞结构、修辞学理论等一系列方法对词汇链方法进行改进^[24,25,26].由于传统的词汇链只考虑名词而忽略其他语法部分的信息导致准确率较低，Hou等^[27]在此基础上做了进一步改进优化，分别引入谓词和形容词（副词）的词汇链，三者一起构成全息词汇链（holographic lexical chain）用于中文文本摘要，准确率取得了显著性的提高.Lynn等^[28]通过对常规的词汇链进行增强改进，引入文本中关键词的3个不同文本特征来产生更好的文本相关信息，取得了良好的提升效果. ...

Holographic lexical chain and its application in chinese text summarization

1

2017

... 选择出强词汇链.确定强词汇链后，通过制定的3 条启发式的规则，为每一个强词汇链抽取一个句子形成最后的摘要.在此基础上，后来还提出了结合修辞结构、修辞学理论等一系列方法对词汇链方法进行改进^[24,25,26].由于传统的词汇链只考虑名词而忽略其他语法部分的信息导致准确率较低，Hou等^[27]在此基础上做了进一步改进优化，分别引入谓词和形容词（副词）的词汇链，三者一起构成全息词汇链（holographic lexical chain）用于中文文本摘要，准确率取得了显著性的提高.Lynn等^[28]通过对常规的词汇链进行增强改进，引入文本中关键词的3个不同文本特征来产生更好的文本相关信息，取得了良好的提升效果. ...

An improved method of automatic text summarization for Web contents using lexical chain with semantic-related terms

1

2018

... 选择出强词汇链.确定强词汇链后，通过制定的3 条启发式的规则，为每一个强词汇链抽取一个句子形成最后的摘要.在此基础上，后来还提出了结合修辞结构、修辞学理论等一系列方法对词汇链方法进行改进^[24,25,26].由于传统的词汇链只考虑名词而忽略其他语法部分的信息导致准确率较低，Hou等^[27]在此基础上做了进一步改进优化，分别引入谓词和形容词（副词）的词汇链，三者一起构成全息词汇链（holographic lexical chain）用于中文文本摘要，准确率取得了显著性的提高.Lynn等^[28]通过对常规的词汇链进行增强改进，引入文本中关键词的3个不同文本特征来产生更好的文本相关信息，取得了良好的提升效果. ...

An approach to automatic text summarization using Word Net

1

2014

... 基于WordNet语义词典对单词的语义进行分析的方法，通过Lesk算法从特定的情景中找到单词的实际意思^[29]，接着使用简化Lesk算法分别分析文本中所有句子的权重，并根据其权重按降序排列.然后根据给定的摘要比例，从有序列表中选择特定数量的句子生成摘要.虽然此类方法基于词的全局性和语义关系等多种属性来判断句子的重要性，改进了简单统计方法未充分利用词间关系、词义关系等特征的不足，但由于受限于当时的技术，该方法对原文档的分析还停留在比较浅的层面. ...

The Page Rank citation ranking:bringing order to the Web

1

1999

... 互联网网页上的文档具有较松散且涉及主题较多的结构特点，在此基础上，研究出了一些专门针对生成网页文档摘要的自动摘要技术，就是基于图排序的文本摘要的方法.基于图排序的文本摘要生成的主要方法是通过把文章分成若干个段落或句子的集合，每个集合对应一个图的顶点，集合之间的关系对应边，最后通过图排序的算法（如PageRank^[30]、HITS^[31]等）计算各个顶点最后的得分，然后依据得分高低生成文本摘要. ...

The Web as a graph:measurements,models,and methods

1

1999

... 互联网网页上的文档具有较松散且涉及主题较多的结构特点，在此基础上，研究出了一些专门针对生成网页文档摘要的自动摘要技术，就是基于图排序的文本摘要的方法.基于图排序的文本摘要生成的主要方法是通过把文章分成若干个段落或句子的集合，每个集合对应一个图的顶点，集合之间的关系对应边，最后通过图排序的算法（如PageRank^[30]、HITS^[31]等）计算各个顶点最后的得分，然后依据得分高低生成文本摘要. ...

Graph-based ranking algorithms for sentence extraction,applied to text summarization

1

2004

... 最先，Mihalcea^[32]使用PageRank算法及其改进的算法 TextRank 提取关键词和关键句子来生成文档摘要.在这个方法中，他们将单词或句子作为图的顶点，将词或句子之间的相似度作为图顶点之间的连边.句子之间的相似度单纯由句子之间内容重叠部分的多少决定，相似度通过计算2 个句子之间共同单词的数量得到.对于提取关键句子的部分，由于考虑到长句所包含的信息量大，覆盖的内容较多，导致长句得分普遍比短句高，因此对长句进行相应的惩罚，将计算的得分值除去句子的长度得到相似度值，即边的权值.当2个顶点之间相似度大于零时，则存在一条边将2个顶点连接起来，边的权值也就是顶点之间的相似度数值；当2个顶点之间相似度为零时，则顶点之间不存在连边的关系.几种基本的图模型包括有向无权图、有向加权图、无向加权图、无向无权图.对于有向图，边的方向是依据文档句子的顺序，对于所有的图，边的权值都是句子或词之间的相似度.基于这些图模型，依据PageRank、HITS以及TextRank等算法对句子的得分进行计算，按照句子得分的高低选择合适数量的句子生成摘要.Wan等^[33]将TextRank扩展到SingleRank，通过在可变大小w≥2的窗口中共同出现的单词之间引入加权边.ExpandRank中包含类似的相邻文档以计算更准确字共现信息.Gollapalli 等^[34]扩展了 ExpandRank，整合来自引用网络的信息来研究关键词的提取，取得了超越当前最先进基线的良好实验效果. ...

Single document keyphrase extraction using neighborhood knowledge

1

2008

... 最先，Mihalcea^[32]使用PageRank算法及其改进的算法 TextRank 提取关键词和关键句子来生成文档摘要.在这个方法中，他们将单词或句子作为图的顶点，将词或句子之间的相似度作为图顶点之间的连边.句子之间的相似度单纯由句子之间内容重叠部分的多少决定，相似度通过计算2 个句子之间共同单词的数量得到.对于提取关键句子的部分，由于考虑到长句所包含的信息量大，覆盖的内容较多，导致长句得分普遍比短句高，因此对长句进行相应的惩罚，将计算的得分值除去句子的长度得到相似度值，即边的权值.当2个顶点之间相似度大于零时，则存在一条边将2个顶点连接起来，边的权值也就是顶点之间的相似度数值；当2个顶点之间相似度为零时，则顶点之间不存在连边的关系.几种基本的图模型包括有向无权图、有向加权图、无向加权图、无向无权图.对于有向图，边的方向是依据文档句子的顺序，对于所有的图，边的权值都是句子或词之间的相似度.基于这些图模型，依据PageRank、HITS以及TextRank等算法对句子的得分进行计算，按照句子得分的高低选择合适数量的句子生成摘要.Wan等^[33]将TextRank扩展到SingleRank，通过在可变大小w≥2的窗口中共同出现的单词之间引入加权边.ExpandRank中包含类似的相邻文档以计算更准确字共现信息.Gollapalli 等^[34]扩展了 ExpandRank，整合来自引用网络的信息来研究关键词的提取，取得了超越当前最先进基线的良好实验效果. ...

Extracting keyphrases from research papers using citation networks

1

2014

... 最先，Mihalcea^[32]使用PageRank算法及其改进的算法 TextRank 提取关键词和关键句子来生成文档摘要.在这个方法中，他们将单词或句子作为图的顶点，将词或句子之间的相似度作为图顶点之间的连边.句子之间的相似度单纯由句子之间内容重叠部分的多少决定，相似度通过计算2 个句子之间共同单词的数量得到.对于提取关键句子的部分，由于考虑到长句所包含的信息量大，覆盖的内容较多，导致长句得分普遍比短句高，因此对长句进行相应的惩罚，将计算的得分值除去句子的长度得到相似度值，即边的权值.当2个顶点之间相似度大于零时，则存在一条边将2个顶点连接起来，边的权值也就是顶点之间的相似度数值；当2个顶点之间相似度为零时，则顶点之间不存在连边的关系.几种基本的图模型包括有向无权图、有向加权图、无向加权图、无向无权图.对于有向图，边的方向是依据文档句子的顺序，对于所有的图，边的权值都是句子或词之间的相似度.基于这些图模型，依据PageRank、HITS以及TextRank等算法对句子的得分进行计算，按照句子得分的高低选择合适数量的句子生成摘要.Wan等^[33]将TextRank扩展到SingleRank，通过在可变大小w≥2的窗口中共同出现的单词之间引入加权边.ExpandRank中包含类似的相邻文档以计算更准确字共现信息.Gollapalli 等^[34]扩展了 ExpandRank，整合来自引用网络的信息来研究关键词的提取，取得了超越当前最先进基线的良好实验效果. ...

Abstractive text summarization based on improved semantic graph approach

1

2018

... Khan 等^[35]提出了一种多文档生成式摘要的改进语义图排序算法，它是从源文档中以图节点表示的方式构建谓词变元结构（PAS,predicate argument structures）的句子语义结构，图边代表相似性权重，根据PAS语义相似度计算相似性权重，用改进的图排序算法对重要图节点排序，从中选取排名高的 PAS 生成摘要句子.Al-Khassawneh 等^[36]提出了一种基于混合图的单文档抽取摘要技术，将余弦相似度（sim1）、Jaccard相似度（sim2）、基于词对齐的相似度（sim3）和基于窗口的相似性度量（sim4）4种不同的相似性度量结合创新了一种混合相似函数来用于计算图的权重，一定程度上改良了单纯基于TextRank字内容重叠计算权重的不足.其他图排序算法^[37,38,39]都是基于各种方法计算图节点的权重，通过筛选出重要性程度高的节点来生成摘要，都在一定程度上提高了摘要的质量. ...

Improving triangle-graph based text summarization using hybrid similarity function

1

2017

... Khan 等^[35]提出了一种多文档生成式摘要的改进语义图排序算法，它是从源文档中以图节点表示的方式构建谓词变元结构（PAS,predicate argument structures）的句子语义结构，图边代表相似性权重，根据PAS语义相似度计算相似性权重，用改进的图排序算法对重要图节点排序，从中选取排名高的 PAS 生成摘要句子.Al-Khassawneh 等^[36]提出了一种基于混合图的单文档抽取摘要技术，将余弦相似度（sim1）、Jaccard相似度（sim2）、基于词对齐的相似度（sim3）和基于窗口的相似性度量（sim4）4种不同的相似性度量结合创新了一种混合相似函数来用于计算图的权重，一定程度上改良了单纯基于TextRank字内容重叠计算权重的不足.其他图排序算法^[37,38,39]都是基于各种方法计算图节点的权重，通过筛选出重要性程度高的节点来生成摘要，都在一定程度上提高了摘要的质量. ...

A document-sensitive graph model for multi-document summarization

1

2010

... Khan 等^[35]提出了一种多文档生成式摘要的改进语义图排序算法，它是从源文档中以图节点表示的方式构建谓词变元结构（PAS,predicate argument structures）的句子语义结构，图边代表相似性权重，根据PAS语义相似度计算相似性权重，用改进的图排序算法对重要图节点排序，从中选取排名高的 PAS 生成摘要句子.Al-Khassawneh 等^[36]提出了一种基于混合图的单文档抽取摘要技术，将余弦相似度（sim1）、Jaccard相似度（sim2）、基于词对齐的相似度（sim3）和基于窗口的相似性度量（sim4）4种不同的相似性度量结合创新了一种混合相似函数来用于计算图的权重，一定程度上改良了单纯基于TextRank字内容重叠计算权重的不足.其他图排序算法^[37,38,39]都是基于各种方法计算图节点的权重，通过筛选出重要性程度高的节点来生成摘要，都在一定程度上提高了摘要的质量. ...

Weighted graph model based sentence clustering and ranking for document summarization

1

2011

... Khan 等^[35]提出了一种多文档生成式摘要的改进语义图排序算法，它是从源文档中以图节点表示的方式构建谓词变元结构（PAS,predicate argument structures）的句子语义结构，图边代表相似性权重，根据PAS语义相似度计算相似性权重，用改进的图排序算法对重要图节点排序，从中选取排名高的 PAS 生成摘要句子.Al-Khassawneh 等^[36]提出了一种基于混合图的单文档抽取摘要技术，将余弦相似度（sim1）、Jaccard相似度（sim2）、基于词对齐的相似度（sim3）和基于窗口的相似性度量（sim4）4种不同的相似性度量结合创新了一种混合相似函数来用于计算图的权重，一定程度上改良了单纯基于TextRank字内容重叠计算权重的不足.其他图排序算法^[37,38,39]都是基于各种方法计算图节点的权重，通过筛选出重要性程度高的节点来生成摘要，都在一定程度上提高了摘要的质量. ...

TSGVi:a graph-based summarization system for Vietnamese documents

1

2012

... Khan 等^[35]提出了一种多文档生成式摘要的改进语义图排序算法，它是从源文档中以图节点表示的方式构建谓词变元结构（PAS,predicate argument structures）的句子语义结构，图边代表相似性权重，根据PAS语义相似度计算相似性权重，用改进的图排序算法对重要图节点排序，从中选取排名高的 PAS 生成摘要句子.Al-Khassawneh 等^[36]提出了一种基于混合图的单文档抽取摘要技术，将余弦相似度（sim1）、Jaccard相似度（sim2）、基于词对齐的相似度（sim3）和基于窗口的相似性度量（sim4）4种不同的相似性度量结合创新了一种混合相似函数来用于计算图的权重，一定程度上改良了单纯基于TextRank字内容重叠计算权重的不足.其他图排序算法^[37,38,39]都是基于各种方法计算图节点的权重，通过筛选出重要性程度高的节点来生成摘要，都在一定程度上提高了摘要的质量. ...

一种基于词共现图的文档自动摘要研究

1

2005

... 耿焕同等^[40]利用句子之间的共同词汇，在节点关系图的基础上提出了一种基于词共现图的文本摘要生成的方法，并将条件概率的概念引入词共现矩阵中，用以构造词共现矩阵.该方法通过词共现图形成的主题信息以及不同主题之间的连接特征信息自动提取生成摘要. ...

一种基于词共现图的文档自动摘要研究

1

2005

... 耿焕同等^[40]利用句子之间的共同词汇，在节点关系图的基础上提出了一种基于词共现图的文本摘要生成的方法，并将条件概率的概念引入词共现矩阵中，用以构造词共现矩阵.该方法通过词共现图形成的主题信息以及不同主题之间的连接特征信息自动提取生成摘要. ...

A modification to graph based approach for extraction based automatic text summarization

1

2018

... 基于PageRank、HITS以及TextRank^[41]改进的图排序算法都是无监督的，它具有简单、语言弱相关及同时适合单文本和多文本等众多优点，无需手动标注数据集，相比有监督或半监督的深度学习的文本摘要方法，节省了一定的时间和人力.虽然它具有语言独立、不需要大量语料训练、节约时间等优点，但是由于无监督学习方法还没有充分挖掘和利用数据之间的关系，所以虽然文本摘要的效果和质量有所提升，但是对数据利用不够充分，存在局限性，之后的基于有监督、半监督学习的文本摘要方法对数据进行了合理利用，相比无监督方法有显著的性能提升. ...

Text summarization using unsupervised deep learning

1

2017