The National Natural Science Foundation of China. 71971080 The National Natural Science Foundation of China. 71601077 The Natural Science Foundation of Hunan Province . 2020JJ4252
Aiming at the current research on using social media data to predict depression ignoring the characteristics of language style and emotional changes over time and lacking of research on the characteristics of emotional state and post metadata, a depression recognition model based on emotional information fused with attentional mechanism was proposed.Firstly, on the basis of the existing research on depression recognition, the text classification convolutional neural network was used to extract the post information and emotional information for each time period of the user in chronological order, and the attention mechanism was introduced to assign different attention weights to the obtained feature matrix to obtain user post information features and user emotional information features.Next, regular matching was used to extract the emotional tendency information, and the weighted emotional feature matrix output by the attention mechanism was spliced to enhance emotional learning expression.Then, metadata features describing social network posts were added, indicators that characterized user preference features were designed, and user language preference features through statistical characterization indicators were extracted.Finally, the three characteristics of user language information, user emotional information, and user language preference information were combined to establish a prediction model for the user’s depression state based on a multi-layer perceptron.The experimental results showed that the accuracy of the model in this paper had increased by 0.051, the recall rate had increased by 0.065, and F1 value had increased by 0.058.
Keywords:depression recognition
;
attention mechanism
;
emotional information
;
deep learning
CHEN Yan. Depression recognition based on emotional information fused with attentional mechanism. Chinese Journal of Intelligent Science and Technology[J], 2022, 4(4): 600-609 doi:10.11959/j.issn.2096-6652.202221
研究者们针对社交网络中的抑郁症用户进行的识别工作是分析抑郁症潜在用户的在线行为。Park M等人[3]利用从推特(Twitter)用户捕获的实时文本数据研究抑郁症用户情绪和语言使用规律,并在其后续工作中[4],对活跃在社交网络平台的抑郁症用户进行了面对面采访,探讨了用户的抑郁行为特征。Xu R H等人[5]从语言模式的角度探求抑郁症用户的语言风格。这些研究者开创了利用社交网络识别抑郁症的方式,探讨了抑郁症用户的语言信息和行为信息,对抑郁症用户的用词规律进行了统计方面的研究,但缺乏对帖子元数据特征的分析,例如研究抑郁症用户与非抑郁症用户平均每条留言字数、字符数、字符长度等。
另外,研究者还注意到情感信息在模型学习中也是有效的。De Choudhury M等人[6]使用回归分析法从抑郁症用户近一年的帖子中挖掘用户语言风格和情感,检测用户患重度抑郁症的潜在可能性。Shen G Y 等人[7]提出一种多模态词典学习(multimodal dictionary learning,MDL)模型检测抑郁症用户。Trotzek M等人[8]使用文本卷积神经网络(text convolutional neural network,TextCNN)对抑郁症用户进行了分类识别。以上研究都考虑了提取抑郁症用户的情感特征,有效地提高了检测的准确性,但未考虑到抑郁症用户的情感特征在时间维度上连续变化的特点和特殊情感符号、表情符号、缩略词、大小写等在文中体现的情感信息,造成了模型情感特征缺失问题。
针对上述问题,本文提出了一种基于情感信息融合注意力机制的抑郁症识别(depression recognition based on emotional information fused with attentional mechanism,EIAM-DR)模型。融合注意力机制(attention mechanism,AM)与TextCNN,按时间顺序提取用户每个时间段的帖子信息和情感信息。使用正则匹配提取文本中的特殊情感符号、表情符号、缩略词、大小写等,得到文本的情感倾向信息,拼接AM的分配权重,得到用户增强情感信息高阶特征表示。设计用于表示用户偏好特征的指标,通过统计表示指标得到用户帖子的元数据特征和用户社会性互动特征,进而得到用户语言偏好特征。最后融合用户语言信息、用户情感信息和用户语言偏好信息建立抑郁症用户识别模型。
Leis A等人[21]指出特定的语言使用模式与心理健康指标有关。语言使用模式是指个体语言表达过程中词汇使用的倾向性,可以用来区分抑郁症患者和健康个体[22]。抑郁症患者经常使用社交媒体谈论他们的疾病信息、分享治疗经验、寻求社会支持和建议、减少社交、管理他们的精神疾病[23]。因此,用户在社交网络的语言模式特征值得考虑。通过分析Shen G Y等人[7]贡献的数据集,并参考其分析的用户在线行为特征,本文提取了以下两个用户数据特征组:社会互动特征和帖子数据元数据。社会互动特征使用用户关注者的数量来描述用户的社会互动特征,使用用户历史帖子数量来评估用户的积极性。帖子数据元数据为描述一组数据的数据,用于分析的元特征主要包括用户平均每条帖子的单词数、用户平均每条帖子唯一单词的数量、用户平均每条帖子的停用词数量、用户平均每条帖子中链接出现的次数、用户平均每条帖子的字符数、用户平均每条帖子的提及次数。于是对提取到的用户语言偏好特征向量进行归一化得到用户语言偏好特征标识符,如式(10)所示:
受Benton A等人[24]和Coppersmith G等人[25]研究工作的启发,Shen G Y等人[7]利用爬虫技术基于 Twitter 构建了一个抑郁症用户数据集Depressed。该数据集标签满足严格的标记规则,即用户帖子中出现“我是/我曾经是/我已经确诊了抑郁症(I’m/I am/I was/I’ve been diagnosed depression)”类似的文本,并且在一定时间内,用户的状态符合抑郁症临床评价标准,基于这两种情况,将用户标记为抑郁症用户。作者进一步获取了用户在一段时间内发布的所有帖子。此外Shen G Y等人[7]还构建了一个非抑郁数据集 Non-Depressed,在此数据集中,如果用户从未发表过任何包含类似字符串“抑郁(depress)”的帖子,那么他们被认为是非抑郁的。数据集概述见表1。
Depression detection via harvesting social media:a multimodal dictionary learning solution
[C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence. California:International Joint Conferences on Artificial Intelligence Organization, 2017: 3838-3844.
Convolutional neural networks for sentence classification
[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg:Association for Computational Linguistics, 2014.
[C]// Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg:Association for Computational Linguistics, 2014: 1532-1543.
Ethical research protocols for social media health research
[C]// Proceedings of the 1st ACL Workshop on Ethics in Natural Language Processing. Stroudsburg:Association for Computational Linguistics, 2017: 94-102.
[C]// Proceedings of the Workshop on Computational Linguistics and Clinical Psychology:From Linguistic Signal to Clinical Reality. Stroudsburg:Association for Computational Linguistics, 2014: 51-60.
... 研究者们针对社交网络中的抑郁症用户进行的识别工作是分析抑郁症潜在用户的在线行为.Park M等人[3]利用从推特(Twitter)用户捕获的实时文本数据研究抑郁症用户情绪和语言使用规律,并在其后续工作中[4],对活跃在社交网络平台的抑郁症用户进行了面对面采访,探讨了用户的抑郁行为特征.Xu R H等人[5]从语言模式的角度探求抑郁症用户的语言风格.这些研究者开创了利用社交网络识别抑郁症的方式,探讨了抑郁症用户的语言信息和行为信息,对抑郁症用户的用词规律进行了统计方面的研究,但缺乏对帖子元数据特征的分析,例如研究抑郁症用户与非抑郁症用户平均每条留言字数、字符数、字符长度等. ...
Perception differences between the depressed and non-depressed users in twitter
1
2013
... 研究者们针对社交网络中的抑郁症用户进行的识别工作是分析抑郁症潜在用户的在线行为.Park M等人[3]利用从推特(Twitter)用户捕获的实时文本数据研究抑郁症用户情绪和语言使用规律,并在其后续工作中[4],对活跃在社交网络平台的抑郁症用户进行了面对面采访,探讨了用户的抑郁行为特征.Xu R H等人[5]从语言模式的角度探求抑郁症用户的语言风格.这些研究者开创了利用社交网络识别抑郁症的方式,探讨了抑郁症用户的语言信息和行为信息,对抑郁症用户的用词规律进行了统计方面的研究,但缺乏对帖子元数据特征的分析,例如研究抑郁症用户与非抑郁症用户平均每条留言字数、字符数、字符长度等. ...
Understanding online health groups for depression:social network and linguistic perspectives
1
2016
... 研究者们针对社交网络中的抑郁症用户进行的识别工作是分析抑郁症潜在用户的在线行为.Park M等人[3]利用从推特(Twitter)用户捕获的实时文本数据研究抑郁症用户情绪和语言使用规律,并在其后续工作中[4],对活跃在社交网络平台的抑郁症用户进行了面对面采访,探讨了用户的抑郁行为特征.Xu R H等人[5]从语言模式的角度探求抑郁症用户的语言风格.这些研究者开创了利用社交网络识别抑郁症的方式,探讨了抑郁症用户的语言信息和行为信息,对抑郁症用户的用词规律进行了统计方面的研究,但缺乏对帖子元数据特征的分析,例如研究抑郁症用户与非抑郁症用户平均每条留言字数、字符数、字符长度等. ...
Predicting depression via social media
1
2013
... 另外,研究者还注意到情感信息在模型学习中也是有效的.De Choudhury M等人[6]使用回归分析法从抑郁症用户近一年的帖子中挖掘用户语言风格和情感,检测用户患重度抑郁症的潜在可能性.Shen G Y 等人[7]提出一种多模态词典学习(multimodal dictionary learning,MDL)模型检测抑郁症用户.Trotzek M等人[8]使用文本卷积神经网络(text convolutional neural network,TextCNN)对抑郁症用户进行了分类识别.以上研究都考虑了提取抑郁症用户的情感特征,有效地提高了检测的准确性,但未考虑到抑郁症用户的情感特征在时间维度上连续变化的特点和特殊情感符号、表情符号、缩略词、大小写等在文中体现的情感信息,造成了模型情感特征缺失问题. ...
Depression detection via harvesting social media:a multimodal dictionary learning solution
5
2017
... 另外,研究者还注意到情感信息在模型学习中也是有效的.De Choudhury M等人[6]使用回归分析法从抑郁症用户近一年的帖子中挖掘用户语言风格和情感,检测用户患重度抑郁症的潜在可能性.Shen G Y 等人[7]提出一种多模态词典学习(multimodal dictionary learning,MDL)模型检测抑郁症用户.Trotzek M等人[8]使用文本卷积神经网络(text convolutional neural network,TextCNN)对抑郁症用户进行了分类识别.以上研究都考虑了提取抑郁症用户的情感特征,有效地提高了检测的准确性,但未考虑到抑郁症用户的情感特征在时间维度上连续变化的特点和特殊情感符号、表情符号、缩略词、大小写等在文中体现的情感信息,造成了模型情感特征缺失问题. ...
... Leis A等人[21]指出特定的语言使用模式与心理健康指标有关.语言使用模式是指个体语言表达过程中词汇使用的倾向性,可以用来区分抑郁症患者和健康个体[22].抑郁症患者经常使用社交媒体谈论他们的疾病信息、分享治疗经验、寻求社会支持和建议、减少社交、管理他们的精神疾病[23].因此,用户在社交网络的语言模式特征值得考虑.通过分析Shen G Y等人[7]贡献的数据集,并参考其分析的用户在线行为特征,本文提取了以下两个用户数据特征组:社会互动特征和帖子数据元数据.社会互动特征使用用户关注者的数量来描述用户的社会互动特征,使用用户历史帖子数量来评估用户的积极性.帖子数据元数据为描述一组数据的数据,用于分析的元特征主要包括用户平均每条帖子的单词数、用户平均每条帖子唯一单词的数量、用户平均每条帖子的停用词数量、用户平均每条帖子中链接出现的次数、用户平均每条帖子的字符数、用户平均每条帖子的提及次数.于是对提取到的用户语言偏好特征向量进行归一化得到用户语言偏好特征标识符,如式(10)所示: ...
... 受Benton A等人[24]和Coppersmith G等人[25]研究工作的启发,Shen G Y等人[7]利用爬虫技术基于 Twitter 构建了一个抑郁症用户数据集Depressed.该数据集标签满足严格的标记规则,即用户帖子中出现“我是/我曾经是/我已经确诊了抑郁症(I’m/I am/I was/I’ve been diagnosed depression)”类似的文本,并且在一定时间内,用户的状态符合抑郁症临床评价标准,基于这两种情况,将用户标记为抑郁症用户.作者进一步获取了用户在一段时间内发布的所有帖子.此外Shen G Y等人[7]还构建了一个非抑郁数据集 Non-Depressed,在此数据集中,如果用户从未发表过任何包含类似字符串“抑郁(depress)”的帖子,那么他们被认为是非抑郁的.数据集概述见表1. ...
Detecting signs of depression in tweets in Spanish:behavioral and linguistic analysis
1
2019
... Leis A等人[21]指出特定的语言使用模式与心理健康指标有关.语言使用模式是指个体语言表达过程中词汇使用的倾向性,可以用来区分抑郁症患者和健康个体[22].抑郁症患者经常使用社交媒体谈论他们的疾病信息、分享治疗经验、寻求社会支持和建议、减少社交、管理他们的精神疾病[23].因此,用户在社交网络的语言模式特征值得考虑.通过分析Shen G Y等人[7]贡献的数据集,并参考其分析的用户在线行为特征,本文提取了以下两个用户数据特征组:社会互动特征和帖子数据元数据.社会互动特征使用用户关注者的数量来描述用户的社会互动特征,使用用户历史帖子数量来评估用户的积极性.帖子数据元数据为描述一组数据的数据,用于分析的元特征主要包括用户平均每条帖子的单词数、用户平均每条帖子唯一单词的数量、用户平均每条帖子的停用词数量、用户平均每条帖子中链接出现的次数、用户平均每条帖子的字符数、用户平均每条帖子的提及次数.于是对提取到的用户语言偏好特征向量进行归一化得到用户语言偏好特征标识符,如式(10)所示: ...
Exploring the dominant features of social media for depression detection
1
2020
... Leis A等人[21]指出特定的语言使用模式与心理健康指标有关.语言使用模式是指个体语言表达过程中词汇使用的倾向性,可以用来区分抑郁症患者和健康个体[22].抑郁症患者经常使用社交媒体谈论他们的疾病信息、分享治疗经验、寻求社会支持和建议、减少社交、管理他们的精神疾病[23].因此,用户在社交网络的语言模式特征值得考虑.通过分析Shen G Y等人[7]贡献的数据集,并参考其分析的用户在线行为特征,本文提取了以下两个用户数据特征组:社会互动特征和帖子数据元数据.社会互动特征使用用户关注者的数量来描述用户的社会互动特征,使用用户历史帖子数量来评估用户的积极性.帖子数据元数据为描述一组数据的数据,用于分析的元特征主要包括用户平均每条帖子的单词数、用户平均每条帖子唯一单词的数量、用户平均每条帖子的停用词数量、用户平均每条帖子中链接出现的次数、用户平均每条帖子的字符数、用户平均每条帖子的提及次数.于是对提取到的用户语言偏好特征向量进行归一化得到用户语言偏好特征标识符,如式(10)所示: ...
A content analysis of depression-related Tweets
1
2016
... Leis A等人[21]指出特定的语言使用模式与心理健康指标有关.语言使用模式是指个体语言表达过程中词汇使用的倾向性,可以用来区分抑郁症患者和健康个体[22].抑郁症患者经常使用社交媒体谈论他们的疾病信息、分享治疗经验、寻求社会支持和建议、减少社交、管理他们的精神疾病[23].因此,用户在社交网络的语言模式特征值得考虑.通过分析Shen G Y等人[7]贡献的数据集,并参考其分析的用户在线行为特征,本文提取了以下两个用户数据特征组:社会互动特征和帖子数据元数据.社会互动特征使用用户关注者的数量来描述用户的社会互动特征,使用用户历史帖子数量来评估用户的积极性.帖子数据元数据为描述一组数据的数据,用于分析的元特征主要包括用户平均每条帖子的单词数、用户平均每条帖子唯一单词的数量、用户平均每条帖子的停用词数量、用户平均每条帖子中链接出现的次数、用户平均每条帖子的字符数、用户平均每条帖子的提及次数.于是对提取到的用户语言偏好特征向量进行归一化得到用户语言偏好特征标识符,如式(10)所示: ...
Ethical research protocols for social media health research
1
2017
... 受Benton A等人[24]和Coppersmith G等人[25]研究工作的启发,Shen G Y等人[7]利用爬虫技术基于 Twitter 构建了一个抑郁症用户数据集Depressed.该数据集标签满足严格的标记规则,即用户帖子中出现“我是/我曾经是/我已经确诊了抑郁症(I’m/I am/I was/I’ve been diagnosed depression)”类似的文本,并且在一定时间内,用户的状态符合抑郁症临床评价标准,基于这两种情况,将用户标记为抑郁症用户.作者进一步获取了用户在一段时间内发布的所有帖子.此外Shen G Y等人[7]还构建了一个非抑郁数据集 Non-Depressed,在此数据集中,如果用户从未发表过任何包含类似字符串“抑郁(depress)”的帖子,那么他们被认为是非抑郁的.数据集概述见表1. ...
Quantifying mental health signals in twitter
1
2014
... 受Benton A等人[24]和Coppersmith G等人[25]研究工作的启发,Shen G Y等人[7]利用爬虫技术基于 Twitter 构建了一个抑郁症用户数据集Depressed.该数据集标签满足严格的标记规则,即用户帖子中出现“我是/我曾经是/我已经确诊了抑郁症(I’m/I am/I was/I’ve been diagnosed depression)”类似的文本,并且在一定时间内,用户的状态符合抑郁症临床评价标准,基于这两种情况,将用户标记为抑郁症用户.作者进一步获取了用户在一段时间内发布的所有帖子.此外Shen G Y等人[7]还构建了一个非抑郁数据集 Non-Depressed,在此数据集中,如果用户从未发表过任何包含类似字符串“抑郁(depress)”的帖子,那么他们被认为是非抑郁的.数据集概述见表1. ...
ADADELTA:an adaptive learning rate method
1
2012
... 本文实验框架基于Pytorch环境,将Glove模型作为词嵌入模型,使用Zeiler M D[26]提出的随机梯度下降法对权重和偏差进行更新,将Srivastava N等人[27]提出的随机失活(dropout)函数应用于模型的每个隐藏层,避免过度拟合,并采用精确率、召回率、F1值来评估模型的有效性.其次,模型的参数影响模型的性能,参数设置见表2.其中,lr表示训练过程的学习率,batchsize表示每次迭代处理的数量,hiddens表示卷积通道的数量,weight_decay 表示权重衰减超参数, embed_size表示词向量的维度. ...
Dropout:a simple way to prevent neural networks from overfitting
1
2014
... 本文实验框架基于Pytorch环境,将Glove模型作为词嵌入模型,使用Zeiler M D[26]提出的随机梯度下降法对权重和偏差进行更新,将Srivastava N等人[27]提出的随机失活(dropout)函数应用于模型的每个隐藏层,避免过度拟合,并采用精确率、召回率、F1值来评估模型的有效性.其次,模型的参数影响模型的性能,参数设置见表2.其中,lr表示训练过程的学习率,batchsize表示每次迭代处理的数量,hiddens表示卷积通道的数量,weight_decay 表示权重衰减超参数, embed_size表示词向量的维度. ...