文档库 最新最全的文档下载
当前位置:文档库 › 微博用户对剩男剩女的社会态度研究——基于 微博文本情感倾向分析

微博用户对剩男剩女的社会态度研究——基于 微博文本情感倾向分析

微博用户对剩男剩女的社会态度研究——基于 微博文本情感倾向分析
微博用户对剩男剩女的社会态度研究——基于 微博文本情感倾向分析

Advances in Social Sciences社会科学前沿, 2015, 4, 98-106

Published Online June 2015 in Hans. https://www.wendangku.net/doc/a412370706.html,/journal/ass

https://www.wendangku.net/doc/a412370706.html,/10.12677/ass.2015.42016

The Micro-Blog Users’ Social Attitude

towards Leftover Men and Women Based

on the Text Sentiment Analysis

Xue Zhang1,2, Peng Wang1*

1School of Psychology, Shandong Normal University, Jinan Shandong

2Department of Psychology, Peking University, Beijing

Email: *pengsdnu@https://www.wendangku.net/doc/a412370706.html,

Received: Jun. 11th, 2015; accepted: Jun. 23rd, 2015; published: Jun. 30th, 2015

Copyright ? 2015 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

https://www.wendangku.net/doc/a412370706.html,/licenses/by/4.0/

Abstract

This study investigated the Internet users’ social attitude towards leftover males and females. Re-lated to the topic of leftover males and females, 1000 original micro-blog messages selected from Sina Weibo were used to identify the emotional tendencies of these messages. The results showed that the micro-blog users held negative attitude towards leftover males and females. In addition, the emotional tendencies of the 900 original micro-blog messages that were recently published from 60 Sina Weibo users who were marked by leftover males or females were analyzed as well.

The results showed that the emotional tendencies of these messages were neutral. Besides, there were dramatically differences on the topics focused by leftover males and females. The research not only induces a rational social attitude towards leftover males and females, but also plays a guiding role for them in setting up the correct conception on choosing spouse.

Keywords

Leftover Men and Women, Attitude, Micro-Blog Messages, Chinese word segmentation, Analysis of Emotional Tendency

微博用户对剩男剩女的社会态度研究——基于

微博文本情感倾向分析

张雪1,2,王鹏1*

*通讯作者

微博用户对剩男剩女的社会态度研究——基于微博文本情感倾向分析

1山东师范大学心理学院,山东济南

2北京大学心理系,北京

Email: pengsdnu@https://www.wendangku.net/doc/a412370706.html,

收稿日期:2015年6月11日;录用日期:2015年6月23日;发布日期:2015年6月30日

摘要

本研究探讨了网络用户对剩男剩女的社会态度。采用微博文本情感倾向分析的方法对1000条新浪原创微博进行态度研究。采用微博文本情感倾向分析的方法对1000条新浪原创微博进行态度研究,其结果显示微博用户对剩男剩女群体持负向态度。另对标签为剩男剩女的60名新浪微博用户近期发表的900条原创微博进行情感倾向性分析,发现剩男剩女群体的微博呈中性态度,且剩男和剩女的微博关注话题存在明显性别差异。本研究结果对于社会正确理性看待逐渐增多的剩男剩女具有一定的启示意义,对剩男剩女在择偶问题上树立正确择偶观具有引导作用。

关键词

剩男剩女,社会态度,微博文本,中文分词,情感倾向分析

1. 引言

剩男剩女(Leftover men and women)指到达适婚年龄而处于非婚状态的青年,作为伴随社会发展而出现的一个特殊群体,其数量正以一定的比例逐年扩张。中国剩男剩女的增多,将会导致社会成本的增加,心理压力的累积,甚至对社会的安定构成潜在的威胁[1]。剩男剩女作为一种社会现象引发了学者的探讨,目前主要研究领域集中在剩男剩女产生的原因及其折射的社会问题,有关社会对剩男剩女的态度研究较少。

态度(Attitude)包含认知、情感、行为三种成分,态度具有内隐性,需要借助中间变量通过外显的行为或语言进行测量。态度同时具有倾向性,包括中性态度、积极的正向态度、消极的负向态度,可反映态度持有者对人或事物的观点、看法及立场。由于态度对行为具有一定的预测作用,通过探究微博用户对剩男剩女的社会态度,在客观上可以反映广大微博用户在日常行为或言语中对剩男剩女是否存在偏见,从而有助于针对社会大众对剩男剩女持有的态度及观点提出合理化建议。本文同时对剩男剩女这一群体的微博进行了态度研究,以比较大众对该群体的态度与该群体本身的社会态度是否存在差异,同时以性别为变量分别探讨了剩男关注的微博话题与剩女关注的微博话题是否存在性别差异。

2. 微博文本界定与研究方法

2.1. 微博及微博文本情感倾向分析

2014年1月16日,中国互联网络信息中心(CNNIC)发布的《第33次中国互联网络发展状况统计报告》[2]表明:截至2013年12月,我国网民规模达6.18亿,我国微博用户规模为2.81亿,网民中微博使用率为45.5%,即接近一半的网民在使用微博。由此可以看出微博已经成为数以亿计的中国网民发表、分享、获取信息的主要平台。2009年8月,国内网站新浪推出“新浪微博”,成为国内首家提供微博服务的门户网站。新浪微博作为全球使用量最大的两家微博客提供商(美国的Twitter和新浪微博)之一,自推出以来,受

微博用户对剩男剩女的社会态度研究——基于微博文本情感倾向分析

到广大网友的热捧。新浪微博的主要功能有:发布功能、转发功能、关注功能、评论功能、搜索功能、私信功能,其主要特点有使用门槛低、随时随地、快速传播、实时搜索等。

微博作为人们抒发情感、发表评论的平台,含有海量的富含感情信息的文本。文本情感分析(Text senti- ment analysis)就是对大规模文本进行态度分析而发展起来的方法。文本情感分析,在商业领域可以为企业进行市场分析、市场调查、顾客反馈提供更多有价值的信息,在管理领域能够帮助领导者更快地了解群众对各类政策措施的反馈意见,使得官方和民间智慧进行更加良性地互动[3]。所谓情感分析,就是确定说话人或作者对某个特定主题的态度。其中态度可以是他们的判断或评估,他们(演讲、写作时)的情绪状态,或者有意(向受众)传递的情感信息[4]。情感分析的重要问题就是对情感倾向性(Sentiment orientation)的判断,即判断作者的情感观点是积极正面的,还是消极负面的,它是表达自身观点、态度、立场等语言的一种量度,这类问题也被称为情感分类(Sentiment classification)或意见挖掘(Opinion mining)。情感倾向通常由两个标准来衡量:一个是指偏离的方向,即该情感词所要表达的意思是正面的还是负面的;另一个是指偏离的程度,即情感词在表达正面或负面状态下的强弱程度。

2.2. 目标微博的选取与数据收集

本文将进行两个研究,研究一为探讨微博用户对剩男剩女的社会态度,研究二为探讨剩男剩女本身的社会态度并对剩男和剩女关注微博话题进行性别差异研究。

研究一选取和剩男剩女相关话题的新浪微博1000条,实际操作时通过搜索新浪微博关键词的方式依次选取微博内容里含有“剩男剩女”或“大龄未婚”或“大龄单身”的原创微博,为保证微博内容的多样性,对某些出现频率较高的相似微博进行人工筛选过滤,最终得到1000条微博。

研究二选取标签为“剩男剩女”的新浪微博用户60名,其中标签为“剩男剩女”的女性微博用户30名,标签为“剩男剩女”的男性微博用户30名,实际操作时通过搜索新浪微博找人的方式选取标签为剩男剩女的微博用户60名,其中男女各占30名,且这些用户为认证用户,并排除非个人用户即机构用户,选取每名用户最近发表的15篇原创微博,最终得到900条微博。

2.3. 数据分析方法

首先,对获取的文本数据进行文本预处理。文本预处理技术是文本分析的一项基础工作,本研究对文本进行了中文分词、去除停用词两项相关的文本预处理工作。分词技术是语义理解的首要环节,是将语句中的词语正确切分开的一种技术。由于中文本身的复杂性及书写习惯,使得中文词语之间没有明显的区分标记,因此汉语分词技术便成为中文信息处理的关键[5]。本研究采用张华平开发研制的NLPIR2014分词系统[6]进行中文分词处理,该分词系统主要功能包括:中文分词、英文分词、词性标注、命名实体识别、新词识别、关键词提取、支持用户专业词典与微博分析。为了将经过文本预处理后的分词结果进行形象直观的呈现,本文采用了词云(Word cloud)技术对分词结果进行呈现。“词云”[7]又名文字云,是由词汇组成的类似云的彩色图形,“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览者只要一眼扫过词云图片就可以领略文本的主旨。停用词也被称为功能词,是指与其他词相比没有实际含义的词,本研究中的停用词指在微博文本内容中出现频率极高或极低的介词、虚词、代词以及一些与情感无关的字符(如@、V、#、http://等),通常文本的停用词处理中可采用基于词频的方法将其除去。

其次,借鉴情感词典对经过文本预处理后的分词结果进行情感倾向分析。情感词典是情感词的集合,微博文本的情感倾向大多通过情感词语来体现,因此情感词典的构建是情感倾向分析的基础。目前文本情感分析领域还没有一部完整且通用的情感词典,国内主要应用的资源有董振东开发的知网(HowNet)[8],

微博用户对剩男剩女的社会态度研究——基于微博文本情感倾向分析

它是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。该词语集最大的特点在于作者已经根据词语情感倾向将其分为了6类,分别为“正面评价”词语、“负面评价”词语、“正面情感”词语、“负面情感”词语、“主张词语”及“程度级别”词语。本研究借鉴了该词典的正负面评价词语、正负面情感词语和程度级别词语5个词语集。另外,借鉴了前人研究的否定词典[9],该否定词典包含19个否定词。

3. 研究结果及分析

3.1. 微博用户对剩男剩女的态度

对1000条剩男剩女相关话题微博、30名“剩女”(标签为“剩男剩女”的女性用户)微博、30名“剩男”(标签为“剩男剩女”的男性用户)微博、60名标签“剩男剩女”用户的微博分别进行分词处理,根据词频统计出反映词汇重要性的权重,并得到排名前50的词汇。统计结果见表1。

将1000条剩男剩女相关话题微博的分词结果及权重输入到词云软件并采用直观形象的图像进行呈现,见图1。

通过对1000条剩男剩女相关话题微博的分词结果借鉴情感词典进行情感倾向分析可得,微博用户对剩男剩女持负向态度。其中负性词语包括:吐槽、特么、恐婚、差评、悲催、苦逼、妈蛋。根据1000条微博的分词结果,在权重排名前十位的词汇中,带有情感倾向的词汇一共有四个,分别是“吐槽”、“特么”、“恐婚”和“差评”,其中权重最大的情感词是“吐槽”,这四个情感词无一例外地都是带有负面情感倾向的词汇。此外,在权重排名前五十位的词汇中,带有情感倾向的词汇一共有八个,除了上述四个之外,还有“悲催”、“苦逼”、“妈蛋”和“喜欢”。在这个八个情感词中,负面情感词有七个,占情感词总数的87.5%,而仅有的一个正面情感词“喜欢”的权重却有排在最后。由此可见,微博用户对剩男剩女的社会态度倾向明显偏于负面。

前人的研究通过选取微博文本对剩男剩女进行社会态度的情感倾向分析,结果显示微博用户对剩男剩女的情感倾向略显负面,即负面情感略高于正面情感[10]。本文研究结果与先前研究结果略有不同,即认为微博用户对剩男剩女的负面情感明显地高于正面情感。究其原因,两项研究所采用的研究方法和研究过程有所不同。前人的研究选取剩男剩女相关话题的1000条微博,对每一条微博文本进行分词处理后,对照情感词典判断该条微博的情感倾向,然后再通过比较正面情感倾向的微博数量与负面情感倾向的微博数量来判断微博用户对剩男剩女群体的总体情感倾向。本文选取1000条剩男剩女相关话题微博,将所有微博文本统一进行分词处理,对于分词后的结果,参照情感词典来判断1000条微博的情感倾向。另外,

Figure 1. Word cloud of 1000 micro-blog

related to leftover men and women

图1. 1000条微博分词词云

微博用户对剩男剩女的社会态度研究——基于微博文本情感倾向分析

Table 1. Word segmentation results 表1.分词结果

1000条微博分词结果及权重30名标签“剩男剩女”女性用户

微博分词结果及权重

30名标签“剩男剩女”男性用户

微博分词结果及权重

60名标签“剩男剩女”用户微博

分词结果及权重

微博13.75 剩男剩女10.07 吐槽9.72

爸妈9.70 离婚率9.28

特么8.70

恐婚8.53

差评8.32 大龄单身8.08

海归8.01

悲催7.91 大龄未婚7.88

苦逼7.73

韩剧7.73

可以7.52

单身7.51 相亲节目7.39

适婚7.26

相亲7.22

开始7.22 剩斗士7.11

一堆7.06

生活7.04

结婚7.04 娱乐圈 6.78

觉得6.74

社会6.68

职场6.66

妈蛋6.65

恋爱6.60

爱情6.55

神马6.55

男女6.50

工作6.50

朋友6.49

知道6.47

成为6.40

男票6.40

盆友6.39

暗恋6.39

年龄6.37

孩子6.37

看到6.35

屌丝6.32

介绍6.32

女人6.31

时间6.12

需要6.06

还有6.04

喜欢6.02 非诚勿扰14.12

微博10.48

失联7.06

可以6.27

单身6.20

男人5.97

女人5.52

杂粮米 5.28

盆友5.27

喜欢5.17

需要5.14

现在5.11

逆天5.04

飞机失联 4.99

坠楼4.99

爱情4.92

朋友4.79

时间4.59

觉得4.47

起来4.47

生活4.42

开始4.40

微信4.30

就是4.19

上班4.16

知道4.05

世界4.00

说话3.99

心情3.93

看到3.88

人生3.87

可能3.75

离开3.75

变成3.75

流量3.73

准备3.72

感情3.69

游戏3.69

北京3.68

现实3.64

支持3.59

恋爱3.57

过去3.57

回家3.50

回来3.47

奋斗3.47

卡片3.47

生日3.43

孩子3.40

还有3.35

安卓1201.6

微博11.65

二手房8.26

可以6.87

快餐街 6.49

二手房出售6.25

年终总结 5.82

工作5.80

没有5.72

时代天街 5.64

时间5.56

牛逼5.48

知道5.29

执行力 5.28

商住房 5.28

一双5.28

喜欢5.03

生活4.92

发现4.92

朋友4.79

公司4.76

天街4.70

还是4.70

爱情4.67

看到4.65

分享4.56

单身4.54

开始4.35

结婚4.33

投资4.17

中国足球 4.17

微彩票 4.16

生命4.16

价值4.14

改变4.12

手机4.12

个人4.09

男人4.07

觉得4.03

人生4.00

市场3.99

能力3.97

解决3.90

相信3.90

起来3.89

机会3.88

客户3.87

希望3.87

时候3.86

感觉3.85

安卓1201.66

非诚勿扰16.09

微博14.00

失联8.87

二手房8.26

七夕7.73

可以7.72

没有7.64

单身6.61

快餐街 6.49

二手房出售6.25

男人6.24

还是6.12

时间6.04

爱情5.98

女人5.92

工作5.90

喜欢5.88

年终总结 5.82

朋友5.77

知道5.67

生活5.66

时代天街 5.64

起来5.58

开始5.51

需要5.51

牛逼5.48

看到5.36

觉得5.36

商住房 5.28

执行力 5.28

杂粮米 5.27

盆友5.27

软饭5.27

妹纸5.27

帅哥5.27

包邮5.27

发现5.20

说话5.06

逆天5.04

分享4.99

坠楼4.99

结婚4.95

可能4.92

手机4.92

公司4.85

世界4.85

人生4.80

离开4.70

天街4.70

微博用户对剩男剩女的社会态度研究——基于微博文本情感倾向分析

在微博选取的过程中,前人选取计算机采样,获取1000条同时段发表的相关话题微博;本研究采用人工选取样本,为保证微博文本的多样性,只选择原创微博并过滤内容重复的微博,且选取微博发表的时间跨度比较广,不仅选取同时段的微博并对之前相关话题微博进行了研究。

3.2. 剩男剩女自身的社会态度

将60名标签为“剩男剩女”的微博用户900条原创微博的分词结果及权重输入到词云系统并采用直观形象的图像进行呈现,见图2。

对60名标签为“剩男剩女”的微博用户的原创微博进行情感倾向分析,发现剩男剩女的社会态度呈中性态度。剩男剩女的微博文本中含情感词较少,较多的讨论话题在安卓、非诚勿扰、二手房、飞机失联、女人、朋友、年终总结等生活类方面,显示剩男剩女群体关注社会热点,社会适应性良好。

3.3. 剩男和剩女在微博关注话题中的性别差异

统计30名“剩男”微博分词结果及权重和30名“剩女”微博分词结果及权重,分别将分词结果及权重输入到词云软件并用图像呈现,呈现结果见图3和图4。

Figure 2. Word cloud of 60 leftover men and women’s

micro-blog

图2. 60名 “剩男剩女”用户微博分词词云

Figure 3.Word cloud of 30 leftover women’s micro-

blog

图3. 30名“剩女”微博分词词云

微博用户对剩男剩女的社会态度研究——基于微博文本情感倾向分析

Figure 4. Word cloud of 30 leftover men’s micro-blog

图4. 30名“剩男”微博分词词云

根据对剩男和剩女的微博分词结果进行分析可得,男女关注的话题有较大的差异:女性关注最多的是“非诚勿扰”,男性关注最多的是“安卓”,即女性更关注相亲类节目,男性更关注电子类产品。另外,女性关注较多的话题有“男人”、“女人”、“杂粮米”、“爱情”、“盆友”、“朋友”、“孩子”等,男性关注较多的话题有“二手房”、“年终总结”、“工作”、“执行力”、“公司”、“投资”、“中国足球”、“微彩票”、“市场”、“客户”等,即女性倾向于讨论与人际相关的话题,男性倾向于讨论与权力相关的话题。这一结论符合社会对男女所持有的性别角色期待,也从侧面反映了剩男剩女的社会适应性良好。

4. 讨论

4.1. 大众对剩男剩女存在偏见的心理机制探讨

根据研究一的结果分析,微博用户对剩男剩女的社会态度倾向明显偏于负面,而研究二结果显示剩男剩女自身的社会态度是中性的,该结果在一定程度上反映了当前社会对剩男剩女群体的一种偏见,较多的微博内容显示剩男剩女已成为社会问题,需要受到大家的关注,如:“这些年只涨不跌的八个数据:房价、物价、车牌价、剩男剩女数量、离婚率、污染指数、癌症发病率、对外移民率”,且较多微博认为剩男剩女产生的原因是由于男女择偶观的问题。这表明随着剩男剩女数量的增多,剩男剩女正逐渐成为一个社会热点话题,但是以微博用户为代表的网络大众更多的将该问题做个人归因,即认为是个人择偶观有偏差,较少地将该问题做社会归因,如性别比例失调等。这一现象符合社会心理学归因理论中的观察者效应(Observer effect),即观察者对行为者的活动倾向于做内归因,认为该活动是由行动者稳定的内部特质(如个人特质)引起的而非情境因素导致的。将观察者效应引入剩男剩女这一话题,可以帮助网络大众了解自己对该群体进行讨论时在社会态度和归因上产生的偏差,从而促进社会公众更加理性客观地看待和对待这一群体,进而减少剩男剩女自身所感受到的社会偏见。

4.2. 剩男剩女关注话题

在研究二中可发现,剩男剩女除关注飞机失联、富士康坠楼等社会热点问题外,其讨论最多的话题是婚姻,相关词汇包括“非诚勿扰”、“七夕”、“单身”、“爱情”、“喜欢”、“结婚”。一方面,剩男剩女也渴望“爱情”和婚姻,希望脱离“单身”状态,和自己“喜欢”的人“结婚”;另一方面,

微博用户对剩男剩女的社会态度研究——基于微博文本情感倾向分析

由于他们的生活中缺少两性情感的部分,因此有些剩男剩女将很多时间投入到独自活动中,比如宅在家里上网看新闻,看“韩剧”等。对研究一中和剩男剩女相关话题的1000条微博分词结果进行分类,将“剩男剩女”、“大龄单身”、“大龄未婚”、“剩斗士”归为标签类,将“娱乐圈”、“海归”归为领域类,将“相亲节目”、“相亲”、“适婚”、“结婚”、“恋爱”、“爱情”、“暗恋”、“介绍”归为相亲类,将“爸妈”、“离婚率”、“韩剧”、“单身”、“生活”、“社会”、“职场”、“男女”、“工作”、“朋友”、“男票”、“盆友”、“年龄”、“孩子”、“女人”、“时间”、“需要”归为生活类。领域类为微博用户讨论剩男剩女较多的领域,包括娱乐圈和海归,这两类领域的人士在中国人传统观念里是较为高端的明星人物,一般拥有好职业、高收入、高学历,但如今却有越来越多的剩男剩女集中在这两个领域,推断其产生原因是由于个人择偶观的偏差。相亲类词汇在分词结果中占较大比例,表明剩男剩女话题与相亲类话题的相关程度较高。这也从侧面表明,“适婚”的剩男剩女们内心也憧憬“爱情”,也渴望自己能够尽早地找到自己的人生伴侣,和有缘人“恋爱”和“结婚”,而有些男女则由于“暗恋”心仪的对象没有表白而错过了姻缘。剩男剩女身边的亲朋好友、同事同学们则往往热心给他们“介绍”对象,于是“相亲”活动成为剩男剩女脱单的重要途径,而具有综艺性和娱乐性的“相亲节目”也正符合了这个时期剩男剩女的心理需求。生活类词汇涵盖了剩男剩女的生活内容。其中,爸妈的权重最高,可推测剩男剩女感受到最大的压力来自于父母。这与中国儒家传统文化特性有密切关系,“不孝有三,无后为大”的思想观念深入人心,父母都希望自己的孩子都能够早日组建幸福的家庭,对于剩男剩女的父母而言,他们的心情则更为迫切,于是父母的“催婚”成了很多剩男剩女的紧箍咒。另外,“工作”和“朋友”相关词汇均出现两次,表明在剩男剩女的单身生活中,工作和朋友占据了比较重要的位置;“年龄”和“时间”两个词语则体现了剩男剩女对年龄增长的无奈和焦虑。

4.3. 微博话题折射男女性别差异

通过对剩男和剩女的微博分别进行分析发现了明显的性别差异,即女性倾向于讨论与人际相关的话题,男性倾向于讨论与权力相关的话题,这与进化心理学中男女的社会角色所导致的心理差异相符合。根据性别角色理论,男性或女性会依据社会或文化的期待来表现适当的行为模式[11]。本研究的结果发现,剩男剩女分别关注较多的话题与其性别角色是相吻合的,剩女更多关注情感、生活、人际等方面的话题,体现出更多的是女性感性思维的风格;剩男则更多的关注科技、工作、时事等方面的话题,体现出更多的是男性理性思维的风格。这可能表明,剩男剩女对自身的性别角色感知比较符合性别角色的社会规范,其社会适应性水平整体处于良好的状态。

5. 建议

5.1. 大众应理性对待剩男剩女群体

剩男剩女由于逐年的增多成为一种社会现象而引发大众的关注,而大众对该现象多持消极态度,认为剩男剩女的增多会导致社会问题。本文通过研究在一定程度上证实了大众对剩男剩女持负向态度,且多数人认为剩男剩女增多的原因在于青年本身,但通过探讨剩男剩女本身的社会态度发现其社会态度呈中性,即剩男剩女能以客观理性的态度看待社会,且剩男和剩女符合社会对他们的性别角色期待,侧面反映其社会适应性良好。有学者指出剩男剩女不是当代青年和青年群体出了问题,而是当代社会的体制性问题[12]。因此社会大众应以理性客观的态度对待剩男剩女,不让剩男和剩女感到周围人对他们的压力及偏见。剩男剩女感受到最大的压力来自于父母,这就要求身为父母应当从孩子的角度考虑婚姻问题,理解孩子的选择,成为剩男剩女坚实的依靠。

微博用户对剩男剩女的社会态度研究——基于微博文本情感倾向分析

5.2. 剩男剩女应树立正确的择偶观

从个人角度讲,有些剩男剩女之所以被剩下是由于存在不恰当的择偶观。某些适婚青年由于受经济社会的影响,过多的将外在条件纳入到择偶选择中,导致择偶困难。婚姻和爱情本质上是男女双方建立在情投意合基础上的一种情感契约,如果将情感之外的经济条件、社会地位、外在评价等因素掺入进来,必将会侵蚀本该单纯如一的情感本身,也会形成扭曲的择偶观,进而将自己一步步推向剩男剩女的境地。

有些青年过于挑剔对方或其家庭的经济条件而难以找“理想”的伴侣,殊不知“成家立业”一针见血地指出“成家”不但可以在“立业”的前面,而且“成家”对更好的“立业”还有积极作用。由于一份真挚的情感而选择和所爱的人相知相伴,不必要也不应该附加情感之外的各种条件。

基金项目

山东省应用基础型人才培养特色名校建设(应用心理学专业);2014年度山东省统计科研重点课题(No.2014重点29)。

参考文献(References)

[1]雪杉(2010) 剩男剩女现象对社会的影响不容忽视. 东北之窗, 20-21.

[2]网易科技(2014) 第33次中国互联网络发展状况统计报告. https://www.wendangku.net/doc/a412370706.html,/archives/187745.html

[3]杜伟夫(2010) 文本倾向性分析中的情感词典构建技术研究. 博士学位论文, 哈尔滨工业大学, 哈尔滨, 3-4.

[4]王洪伟, 刘勰, 尹裴, 廖雅国(2010) Web文本情感分类研究综述. 情报学报, 5, 931-932.

[5]孙铁利, 刘延吉(2009) 中文分词技术的研究现状与困难. 信息技术, 7, 187-189.

[6]张华平(2014) NLPIR汉语分词系统. NLPIR简介. https://www.wendangku.net/doc/a412370706.html,/

[7]Tagxedo (2014) 词云技术. Tagxedo-Creator. https://www.wendangku.net/doc/a412370706.html,

[8]CNKI (2007) 知网(HowNet). HowNet’s Home Page. https://www.wendangku.net/doc/a412370706.html,

[9]陈晓东(2012) 基于情感词典的中文微博情感倾向分析研究. 硕士学位论文, 华中科技大学, 武汉, 21-23.

[10]佘伟成(2013) 基于微博的热点发现与情感倾向分析. 硕士学位论文, 云南大学, 昆明, 40-41.

[11]Scanzoni, J. and Fox, G.L. (1980) Sex roles, family and society: The seventies and beyond. Journal of Marriage and

the Family, 42, 743-756.

[12]王彬(2012) 从经济学视角分析“剩女”现象. 中国青年研究, 6, 81.

文本情感分析综述

文本情感分析综述? 赵妍妍+, 秦兵, 刘挺 (哈尔滨工业大学计算机科学与技术学院信息检索研究中心, 黑龙江哈尔滨 150001) A Survey of Sentiment Analysis * ZHAO Yan-Yan+, QIN Bing, LIU Ting (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: Phn: +86-451-86413683 ext 800, E-mail: zyy@https://www.wendangku.net/doc/a412370706.html, Abstract: Sentiment analysis is a novel research topic with the quick development of online reviews, which has drawn interesting attention due to its research value and extensive applications. This paper surveys the state-of-the-art research on sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization; then the evaluation and corpus for sentiment analysis are introduced; finally the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, making detailed comparison and analysis. It is expected to be helpful to the future research. Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization; evaluation; corpus 摘 要: 文本情感分析是随着网络评论的海量增长而迅速兴起的一个新兴研究课题,其研究价值和应用价值受到人们越来越多的重视.本文对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为三项主要任务,即情感信息抽取,情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.文本重在对文本情感分析研究的主流方法和前沿进展进行概括,比较和分析,以期对后续研究有所助益. 关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设 中图法分类号: TP391文献标识码: A 随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进.因此,互联网(如:博客和论坛)上产生了大量的用户参与的,对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如“喜”、“怒”、“哀”、“乐”,和“批评”、“赞扬”等.基于此,潜在的用户就可以通过浏览这些主观色彩的评论,来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信 ?Supported by the National Natural Science Foundation of China under Grant Nos. 60803093, 60975055 (国家自然科学基金) and the “863” National High-Tech Research and Development of China via grant 2008AA01Z144(863计划探索类专题项目)

情感分析简述

情感分析简述 分类:NLP2012-04-08 12:38 1022人阅读评论(3) 收藏举报情感classification算法测试translationmatrix 情感分析,我研究了也有半年有余了,ACL Anthology上关于情感分析的论文也基本看过了一遍,但是到目前还没有什么成就的。以下是我为一位同学毕业设计写的情感分析方面的综述,引用的论文基本上是ACL 和COLING还有EMNLP上历年关于情感分析的论文,本文应该学术性比较强一点,本文虽不打算发表,但由于将来可能还有用,以及关于学术上的原因,请大家如果要引用请务必标明出处 (https://www.wendangku.net/doc/a412370706.html,/s/blog_48f3f8b10100irhl.html)。 概述 情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然Bo Pang实验用的电影评论数据集(https://www.wendangku.net/doc/a412370706.html,/people/pabo/movie-review-data/)以及Theresa Wilson等建立的MPQA(https://www.wendangku.net/doc/a412370706.html,/mpqa/)是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。 目前情感分析的研究基本借鉴文本分类等机器学习的方法,还没有根据自身的特点形成一套独立的研究方法,当然在某种程度上也可以把情感分析看出一种特殊的文本分类。比较成熟的方法是基于监督学习的机器学习方法,半监督学习和无监督学习目前的研究不是很多,单纯的基于规则的情感分析这两年已很少研究了。既然目前很多情感分析的研究基于机器学习,那么特征选择就是一个很重要的问题,N元语法等句法特征是使用最多的一类特征,而语义特征(语义计算)和结构特征(树核函数)从文本分类的角度看效果远没有句法特征效果好,所以目前的研究不是很多的。 由于基于监督学习情感分析的研究已经很成熟了,而且在真实世界中由于测试集的数量要远远多于训练集的数量,并且测试集的领域也不像在监督学习中被限制为和训练集一致,也就是说目前情感分析所应用的归纳偏置假设在真实世界中显得太强的,为了和真实世界相一致,基于半监督学习或弱指导学习的情感分析和跨领域的情感分析势必是将来的研究趋势之一。 在情感分析的最初阶段基于语义和基于规则的情感分析曾获得了比较大的重视,但是由于本身实现的复杂性以及文本分类和机器学习方法在情感分析应用上获得的成功,目前关于这方面的研究以及很少了,但是事实上,语义的相关性和上下文的相关性正是情感分析和文本分类最大的不同之处,所以将基于语义和规则的情感分析与基于机器学习的情感分析相结合也将是未来的研究趋势之一。 以下将分别对情感分析的起源,目前基于监督学习,无监督学习,基于规则和跨领域的情感分析的一些研究工作进行简单的介绍。 起源 虽然之前也有一些相关工作,但目前公认的情感分析比较系统的研究工作开始于(Pang et al., 2002)基于监督学习(supervised learning)方法对电影评论文本进行情感倾向性分类和(Turney,2002)基于无监督学习(unsupervised learning)对文本情感情感倾向性分类的研究。(Pang et al., 2002)基于文本的N元语法(ngram)和词类(POS)等特征分别使用朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量机(Support Vector Machine,SVM)将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。(Turney ,2002)基于点互信息(Pointwise Mutual Information,PMI)计算文本中抽取的关键词和种子词(excellent,poor)的相似度来对文本的情感倾向性进行判别(SO-PMI算法)。 在此之后的大部分都是基于(Pang et al., 2002)的研究。而相对来说,(Turney et al.,2002)提出的无监督学习的方法虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定,继续在无监督学习方向的研究并不是很多的,但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了。 监督学习 目前,基于监督学习的情感分析仍然是主流,除了(Li et al.,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al.,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor,k-NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。 一个和文本分类不同地方就是情感分析有时需要提取文本的真正表达情感的句子。(Pang et al., 2004)基于文本中的主观句的选择和(Wilson el al.,2009)基于文本中的中性实例(neutral instances)的分析,都是为了能够尽量获得文本中真正表达情感的句子。(Abbasi et al.,2008)提出通过信息增益(Information Gain,IG)的方法来选择大量特征集中对于情感分析有益的特征。 而对于特征选择,除了N元语法和词类特征之外,(Wilson el al.,2009)提出混合单词特征,否定词特征,情感修饰特征,情感转移特征等各类句法特征的情感分析,(Abbasi et al.,2008)提出混合句子的句法(N元语法,词类,标点)和结构特征(单词的长度,词类中单词的个数,文本的结构特征等)的情感分析。 除了对于文本的预处理,对于监督学习中情感分析还进行了以下方面的研究的。(Melville et al., 2009)和(Li et al.,2009)提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感情感倾向性共同判断文本的情感倾向性。(Taboada et al.,2009)提出结合文本的题材(描述,评论,背景,解释等)和文本本身的特征共同判断文本的情感倾向性。(Tsutsumi et al.,2007)提出利用多分类器融合技术来对文本情感分类。(Wan, 2008)和(Wan, 2009)提出结合英文中丰富的情感分析资源来提高中文情感分析的效果。 基于规则/无监督学习

文本情感分析研究现状

文本情感分析研究现状 机器之心专栏 作者:李明磊 作为NLP领域重要的研究方向之一,情感分析在实际业务场景中 存在巨大的应用价值。在此文中,华为云NLP算法专家李明磊为 我们介绍了情感分析的概念以及华为云在情感分析方面的实践和 进展。 基本概念 为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比 如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值。比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。而这种正负面评价的分析就是情感分析的主要应用场景。 是什么:文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如「华为手机非常好」就是一个正面评价。情感分析主要有五个要素,(entity/实体, aspect/属性,opinio n/观点,holder/观点持有者,time/时间),其中实体和属性合并称为评价对象(target)。情感分析的目标就是从非结构化的文本评论中抽取出这五个要素

、 (entity 体, 输入文木 holder/?点持有者,time/ 时 |i 图i情感分析五要素 举例如下图: 我觉得华为手机非常牛逼。(华为手机* 图2情感分析五要素例子 上例中左侧为非结构化的评论文本,右侧为情感分析模型分析出的五个要素中的四个(不包括时间)。其中实体「华为手机」和属性「拍照」合并起来可以作为评价对象。评价对象又可细分为评价对象词抽取和评价对象类别识别。如实体可 以是实体词和实体类别,实体词可以是「餐馆」、「饭店」、「路边摊」,而实 体类别是「饭店」;属性可以是属性词和属性类别,如属性词可以是「水煮牛肉」、 「三文鱼」等,都对应了属性类别「食物」。实体类别和属性类别相当于是对实体词和属性词的一层抽象和归类,是一对多的关系。词和类别分别对应了不同的

文本情感分析论文总结

文本情感分析 赵妍妍,秦兵,刘挺- 软件学报, 2010 - https://www.wendangku.net/doc/a412370706.html, 按粒度,情感分析可分为词语级、短语级、句子级、篇章级、多篇章级;按文本类别,可分为基于新闻评论和基于产品的情感分析。 情感分析的研究任务:情感信息的抽取、分类以及检索与归纳。 一、情感信息抽取(评价词语、评价对象、观点持有者) 1.评价词语的抽取:基于语料库的抽取;基于词典的抽取;基于图的方法。 2.评价对象的抽取:基于规则/模板的方法(词序列、词性、句法规则、关联规则挖掘);评 价对象最为产品属性,考察评价对象与领域指示词的关联度来获取;多粒度的话题模型方法。 3.观点持有者抽取:命名实体识别技术(人名或机构名)、语义角色标注;分类任务,看做 序列标注问题,使用CRF融合特征抽取;名词短语作为候选,使用ME模型计算。 4.组合评价单元的抽取: 主观表达式:Wiebe的主观表达式库(抽取n元词语/词组作为候选,对比训练预料判断) 评价短语抽取(程度副词-评价词语):情感词典的方法;依存句法解构(ADV,ATT,DE)。 评价搭配抽取(评价词语-评价对象):基于模板的方法(8个共现模板、句法关系模板)。 二、情感信息分类 1.主客观信息分类:文本是否含情感知识方法;组合评价单元判断;情感模板识别;基于 分类器和分类特征的二元分类任务(词语特征,标点、人称代词、数字特征,基于图); 2.主观信息情感分类(句子级、篇章级):基于情感知识、基于特征分类的方法(n-gram词语 特征和词性特征、位置特征、评价词特征)。 三、情感信息的检索与归纳 1.情感信息检索 2.情感信息归纳 基于产品属性的情感文摘:识别评论信息中的产品属性,抽取描述产品属性的情感句,判断其倾向性。 基于情感标签的情感文摘:标签可定义为评价搭配形式,建立标签库,相似度聚类的方法聚类得到相似的情感标签,每一类视为潜在的话题(即产品属性)。 基于新闻评论的文摘 四、情感分析的评测与资源 1.情感分析的评测:TREC,NTCIR的MOAT(新闻观点检测,情感问答,跨语言情感分析), 国内的COAE。 2.情感分析的语料:康奈尔大学的影评数据集,UIC的Hu和Liu的产品领域的评论语料, Wiebe的MPQA新闻评论深度标注语料,MIT的多角度餐馆评论语料,中科院的中文酒店评论语料。 3.词典资源:GI(general inquirer)评价词词典,NTU评价词词典(繁体中文),主观词词典(英 文),HowNet评价词词典(简体中文、英文) 问题:情感信息抽取忽略词语所在语境的影响;评价对象的情感分类,而非句子级或篇章级;基于情感标签的情感文摘的深入研究;

中文微博情感分析评测结果(2012)

2012年CCF自然语言处理与中文计算会议 中文微博情感分析评测结果 1.提交结果编号 本次评测共有34支队伍提交53组有效结果,提交结果编号及所属参评单位对应情况如表1所示。 表1 提交结果编号与参评单位对照表 提交结果编号参评单位 1 北京工商大学 2 北京工商大学 3 北京航空航天大学计算机学院 4 北京航空航天大学计算机学院 5 北京理工大学海量语言信息处理与云计算应用工程技术研究中心1 6 北京理工大学网络搜索挖掘与安全实验室 7 北京理工大学海量语言信息处理与云计算应用工程技术研究中心2 8 北京理工大学海量语言信息处理与云计算应用工程技术研究中心2 9 大连理工大学 10 大连理工大学 11 广东工业大学DMIR实验室 12 哈尔滨工业大学语言技术研究中心网络智能研究室 13 哈尔滨工业大学语言技术研究中心网络智能研究室 14 哈尔滨工业大学计算机科学与技术学院/机器智能与翻译研究室 15 哈尔滨工业大学计算机科学与技术学院/机器智能与翻译研究室 16 哈尔滨工业大学(威海) 17 海军工程大学信息安全系 18 黑龙江大学计算机科学技术学院 19 湖南工业大学计算机与通信学院 20 湖南工业大学计算机与通信学院 21 湖南科技大学外国语学院 22 华侨大学计算机科学与技术学院 23 华侨大学计算机科学与技术学院 24 华中科技大学 25 南京大学计算机科学与技术系自然语言处理研究组 26 南京理工大学 27 南京理工大学 28 清华大学计算机系智能技术与系统国家重点实验室信息检索组 29 清华大学计算机系智能技术与系统国家重点实验室信息检索组 1参评队伍联系人为刘全超 2参评队伍联系人为王金刚

面向微博文本的情感分析模型研究

面向微博文本的情感分析模型研究 随着互联网和移动通讯的飞速发展,人们参与网络活动越来越频繁,微博每天都产生了大量数据,其包含了用户对事物的情感表达和 评论分析,如何从这些信息中挖掘出情感倾向有着巨大的价值。因此,本文对微博文本展开了情感分析模型的研究。通过调研国内外文献,目前对于情感分析模型的研究主要有情感词典方法、机器学习方法和深度学习方法。本文通过爬取微博数据,对这三种方法进行对比实验,寻找最优的情感分析模型。基于传统情感词典方法的研究。利用波森情感词典,将文本数据分词后遍历词典并加权得到其情感极性,然后 在此基础上利用添加情感副词的方式提升情感词典的效果。情感词典方法的优点是速度快,易于判断主观情感比较明确的句子,但是其缺 点是针对不同场景的迁移能力弱,并且人工构建针对某一领域的情感词典耗时耗力。基于机器学习方法的研究。首先对文本数据进行数据预处理,将经过预处理后的数据分词结果通过Word2vec中Skip-gram 方法转化为词向量,同时利用腾讯开源词向量进行对比输入,然后利 用主流的机器学习分类方法(Logistic回归、随机梯度下降法、朴素贝叶斯、支持向量机、随机森林、XGBoost)进行有监督学习,最后对比每种模型的测试集混淆矩阵,发现腾讯开源词向量训练的模型效果均优于Word2vec方法训练出来的词向量。在这些方法中,随机森林、XGBoost这类利用集成思想方法训练的模型效果远远优于单一的分类模型。虽然机器学习方法模型的准确率对比传统情感词典有了很大的提升,但是不足之处是每个训练器都涉及到大量的调参,并对于不同

业务场景的迁移能力不强,机器学习方法已经发展到了瓶颈。基于深度学习方法的研究。通过对经典的多层感知机神经网络、循环神经网络、卷积神经网络和自注意力机制进行对比实验,各类深度学习模型的准确率比情感词典和机器学习的准确率有了较大的提升,其中自注意力机制模型在测试集的准确率达到了91.12%。通过对所有模型进行对比实验,发现自注意力机制所训练的模型无论在训练速度上还是在模型测试集的准确率等方面均优于其他模型。并且它利用序列内部的自我关注,加快了模型收敛的速度。所以,自注意力机制的模型是情感分析任务中综合表现效果最好的模型。

文本情感分析_赵妍妍

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.wendangku.net/doc/a412370706.html, Journal of Software, Vol.21, No.8, August 2010, pp.1834?1848 https://www.wendangku.net/doc/a412370706.html, doi: 10.3724/SP.J.1001.2010.03832 Tel/Fax: +86-10-62562563 ? by Institute of Software, the Chinese Academy of Sciences. All rights reserved. ? 文本情感分析 赵妍妍+, 秦兵, 刘挺 (哈尔滨工业大学计算机科学与技术学院信息检索研究中心,黑龙江哈尔滨 150001) Sentiment Analysis ZHAO Yan-Yan+, QIN Bing, LIU Ting (Center for Information Retrieval, School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: E-mail: yyzhao@https://www.wendangku.net/doc/a412370706.html, Zhao YY, Qin B, Liu T. Sentiment analysis. Journal of Software, 2010,21(8):1834?1848. https://www.wendangku.net/doc/a412370706.html,/ 1000-9825/3832.htm Abstract: This paper surveys the state of the art of sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization. Then, the evaluation and corpus for sentiment analysis are introduced. Finally, the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, making detailed comparison and analysis. Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization; evaluation; corpus 摘要: 对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信 息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分 析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前 沿进展进行概括、比较和分析. 关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设 中图法分类号: TP391文献标识码: A 随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯 的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进. 因此,互联网(如博客和论坛)上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息. 这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等.基于此,潜在的用 户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐 于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集 和处理,因此迫切需要计算机帮助用户快速获取和整理这些相关评价信息.情感分析(sentiment analysis)技术应 ?Supported by the National Natural Science Foundation of China under Grant Nos.60803093, 60975055 (国家自然科学基金); the National High-Tech Research and Development Plan of China under Grant No.2008AA01Z144 (国家高技术研究发展计划(863)) Received 2009-08-14; Revised 2009-12-25; Accepted 2010-03-11

开题报告(文献综述)-在线评论分析系统的情感分析

开题报告(文献综述)-在线评论分析系统的情感分析本科毕业设计(论文)开题报告 论文题目在线评论分析系统的情感分析开题报告内容: 一、选题的背景及意义 近年来,在“大数据”(Big Data)时代的背景下,随着电子商务行业的蓬勃发展,网络购物平台、手机APP应用市场平台等不仅为用户提供了大量商品信息,同时还允许用户参与商品评论。它不仅为商家提供了一个信息的展示平台以发布新产品的规格数据,也为消费者提供了一个产品使用体验交流以及质量评价的平台。因此很多网络用户在购买或使用某类产品前,往往会选择先上网浏览一些该产品的相关信息,尤其是其他用户的使用体验,多方比较产品的性能,从而使自己的消费和选择更趋理性化。分析这些评论信息,蕴含着巨大的商业价值和社会价值,具有很大的现实意义。 然而,这些主观性评论文本每天以指数级的速度增长,仅靠人工方式难以进行 收集、处理和分析。因此采用计算机技术来自动地分析这些主观性文本表达的情感,成为目前数据挖掘(Data Mining)研究的一个热点,而这个热点的研究方向就是文本情感分析(Sentiment Analysis)。 文本情感分析,也称为意见挖掘(Opinion Mining),是指通过分析和挖掘文本中的表达情感、观点和立场的主观性信息并判断其情感倾向。它涉及自然语言处理(Natural Language Processing)、计算机语言学(Computational Linguistics)、机器学习(Machine Learning)、信息检索(Information Retrieval)等众多领域,在计算机科学、管理学、政治学、经济学和社会学方向都有广泛的应用。进入21 世纪以后,情感分析这个领域变得活跃起来,吸引越来越多的学者投入其中。目前

文本情感分析综述

随着企业信息化与互联网的发展,信息以爆炸性速度飞速增长,其中包括了大量的非结构化与半结构化数据。非结构化与半结构化数据,主要是文本型数据,阐述5w问题,即who,when,where,what,Why。如何充分利用非结构化数据与半结构化数据,分析其包含的潜在信息,拥有支持决策,成为了众多企业与研究者关注的重点。尤其,针对互联网(如博客和论坛)上大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此迫切需要计算机帮助用户快速获取和整理这些相关评价信息。因此,如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。情感分析(sentiment analysis)技术也就应运而生(本文中提及的情感分析,都是指文本情感分析)。 文本情感分析(sentiment analysis),又称为意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。其中,主观情感可以是他们的判断或者评价,他们的情绪状态,或者有意传递的情感信息。因此,情感分析的一个主要任务就是情感倾向性的判断,Pang等人在文献1中将情感倾向分为正面、负面和中性,即褒义、贬义和客观评价。研究初期,大量研究者都致力于针对词语和句子的倾向性判断研究,但随着互联网上大量主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究。文本情感分析主要可以归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳[2]。情感信息抽取就是将无结构的情感文本转化为计算机容易识别和处理的结构化文本。情感信息分类则是利用情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬、客观或者其他更细致的情感类别。情感信息检索和归纳可以看作是与用户直接交互的接口,强调检索和归纳的两项应用。 情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值,正受到国内外众多研究者的青睐。目前实现情感分析的技术主要包括基于机器学习法和基于语义方法两类。本文主要针对这两大方法的研究进展进行比较分析,接着介绍国内外现有的资源建设情况,最后介绍情感分析的几个重要应用和展望它的发展趋势。 1 基于统计机器学习法 随着大规模语料库的建设和各种语言知识库的出现,基于语料库的统计机器学习方法进入自然语言处理的视野。多种机器学习方法应用到自然语言处理中并取得了良好的效果,促进了自然语言处理技术的发展。机器学习的本质是基于数据的学习(Learning from Data)。利用机器学习算法对统计语言模型进行训练,最后用训练好的分类器对新文本情感进行识别。2002年,Pang 等人就在文献[1]中提出用机器学习的方法进行情感倾向的挖掘工作,他们以互联网上的电影评论文本作为语料,采用了不同的特征选择方法,应用朴素贝叶斯(Naive Bayes)、最大熵(Maximum Entropy)、向量机(SVM)对电影评论分别进行分类,实验表明SVM 的分类性能最好,准确率达到87.5%。该研究引起学术界的关注,之后用于倾向性判断的机器学习算法的改进被陆续提出,基本的算法有:支持向量机(SVM)、朴素贝叶斯(NB)、K-近邻(KNN)、简单线性分类器(SLC)和最大熵(ME)等。他们在另一项工作中,将文本极性分类问题转换成求取句子连接图的最小分割问题,实现了一个基于minimum-cut的分类器。[7]。Whitelaw等人[11]关注研究带形容词的词组及其修饰语(如“extremely boring”或“not really verygood”),他们提取带形容词的词组作为特征,基于这些特征,用向量空间模型表示文

相关文档
相关文档 最新文档