2024年2月26日发(作者:)

2019年9月情报探索Information

Research第9期(总263期)No.

9

(Serial

No.

263)SEP.

2019弹幕与字幕关联性分析对于视频发展的参考何楚佳姚威羽

(中山大学资讯管理学院广东广州510006)摘

要:[目的/意义]旨在为剧情的编排、社群网络的推广行销以及视频内容的规划、设计、行销等提供参考。[方法/过

程]采用情感分析的方法,对弹幕与字幕进行统计分析,分析两者性质、特色的关联性,由此总结岀不同类型的关联性对应的

观看者的反馈,从而给予针对性的建议。[结果/结论]弹幕可以明确了解观众对于视频的喜恶程度;字幕提供了剧情好坏走

向的基本判断;关联性分析可以给岀观看者对于当前剧情的反馈。同时给岀了弹幕与字幕的特性,并将两者的关联性总结为

六大类,给予了评判资料的新来源。关键词:弹幕;字幕;情感分析中图分类号:G206.3

文献标识码:J

Adoi

:10.

3969/j.

issn.

1005-8095.

2019.

09.

008Relevance

Analysis

of

Barrage

and

Subtitles for

Video

DevelopmentHe

Chujia

Yao

Weiyu(School

of

Information

Management,SUN

YAT-SEN

University,Guangzhou

Guangdong

510006)Abstract

:[

Purpose/significance

The

paper is

to

provide

references

for

plot

layout,social

network

promotion,and

video

content

planning,design,marketing,etc.

Method/process]

The

paper

uses

method

of

sentiment

analysis,

conducts

statistical

analysis

of

barrage

and

subtitle,analyzes

the

natures,characteristics

between

them,summarizes

the

audiences'

feedback

for

different

kinds

of

rel­evance

,so

as

to

put

forward

some

pertinent

countermeasures.

Result/conclusion

The

barrage can

reflect

audiences'

preference

de­gree

of

likes

and

dislikes

for

video;

the

subtitle

provides

the

basic

judgment

of

the

story

which

is

good

or

bad;

the

relevance

analysis

can

give

the

feedback

of

viewer

on

the

current

story.

The

paper

summarizes

the

characteristics of

the

bullet

screen

and

subtitles,six

cat­egories

of

the

relationship

between

the

two,

and

gives

a

new

source

of judgment ds:

barrage

subtitle ;

sentiment

analysis0引言在当今这个资讯流通非常快速的时代,无论是

YouTube或是优酷网,每天都有成千上万来自世界

各地的视频在上传。字幕主要描述的是视频中人物

涵。通过对弹幕进行情感分析,能够从另一个角度

研究及探讨观看者的情绪,如利用大数据分析观看

视频的潜在人群、利用时间轴分析观看人数、探讨视

频剧情的安排等。的对话、旁白、简介等,而从字幕的主要特性可以分

析出许多视频的特征。随着时间的推移,评论互动

依据研究背景的描述,弹幕评论为现今重要的

网络视频互动评论方式。视频中的情感起伏,除了

透过影像、音效等表达,也借由文字词语中的字幕传

方式有很大的转变。从一开始书信往来、观众现场

电话的拨打,到Web

2.0共建共享的网络互动评论,

直到最近,发展出一种崭新的评论方式“弹幕评

达其情感意境;弹幕评论则是视频观看者对于剧中

情节喜恶情绪的表现。加上现今视频种类繁多、数

论”。弹幕之所以称之为“弹幕”一词,是因为大量

的“吐嘈”评论在视频中出现,就像子弹一样,而后

量日以倍增,如何有效且迅速地抓住观众感兴趣、关

来只要在视频画面中出现且具有即时性、时间轴等

特征的评论,都被概括为弹幕。注的视频内容,成为一项重要的课题。本文通过情

感分析方法分析视频弹幕评论与字幕内容,探究其

中的特征及规律,更近一步接触观看者,以便了解他

们最真实的想法。弹幕可以了解观看者的意见、情感表达,以及字

幕在视频中所表现得剧情情绪的起伏,还有内容意

收稿日期:2019-04-24作者简介:何楚佳(1992—),女,2015级硕士研究生,研究方向为用户需求分析;姚威羽(1991—),男,硕士,研究方向为社群分

析。45

2019年9月情报探索第9期(总263期)1情感分析的含义与方法情感分析随着社群的发展、科技的创新与普及

越发重要。情感分析又称意见挖掘,结合自然语言

处理、文本挖掘及电脑语言学等方法,来识别和提取

文本中的主观资讯陆文星与王燕飞认为情感分

析是资料探勘(Data

mining)和电脑语言学的一个分

支,是一种对网上各种新闻资源、社会媒体评论和其

他用户生成内容进行提取、分析、处理、归纳和推理

的技术o[2]在文本中利用判别词语的情感极性是文本情感

分析的基础。为了定量判别词语的情感极性,情感

权重的绝对值越大则意味着词语的褒贬程度越大。

词语的情感极性判别主要基于机器学习和情感词典

2种方法。1.1机器学习方法机器学习方法,主要是应用机器学习的模型。

通过收集的基本资料,取出一部分成为训练集给予

机器学习,判断其中的依赖关系并进行资料的自动

分类。一开始是Pang分别利用朴素贝叶斯(Naive

Bayes)、最大熵(Maximum

Entropy

Models)、支持向

量机(Support

Vector

Machine)对电影评论进行分类

测验,测验结果最好的是支持向量机,其次是最大

熵,最后是朴素贝叶斯,但差异不明显;[3〕Yuen与

Roaymond

WM

基于

Turney

的点互信息(Pointwise

Mutual

Information),用少数的语料库来判别词语的

情感极性;⑷接着朱嫣岚、闵锦、周雅倩等人提出了

基于HowNet的2种词语情感极性判别方法:基于

语义相似度与语义相关场的方法,且实验表明,基于

HowNet语义相似度的方法比基于语义相关场的方

法准确率更高,词频加权后的判别准确率可达80%

以上;[5]张靖与金浩基于二元语法依赖关系的情感

倾向互信特征模型,利用机器学习方式取得分类器,

对语词情感倾向进行自动判别,并进行比较和优化,

性能得以提高;同张靖等人在另一篇文章中提出自

动判别方法,基于二元语法依赖关系的情感倾向或

资讯特征模型,利用特征集合描述情感极性,通过机

器学习方法训练分类器,自动判别词语的情感极

性。⑺1.2情感词典方法情感词方法是先建构一个情感词典,透过情感

词中所属的词性及对应的情感值进行正负值的统

计。柳位平、朱艳辉、栗春亮等人提出了一种中文情

感词语的情感权值计算方法,并以HowNet情感词

46语集为基准,建构了中文基础情感词典丿8]利用词

典结合

TF

-

IDF

(

term

frequency

-inverse

document

frequency)

特征权值计算方法,

对中文文本情感倾向

进行判别,实验结果表明,该方法取得了不错的分类

效果。喻琦构建了微博情感分析所需使用的情感词

库,包括情感词典、网络用语词典、腾讯微博表情符

词典、主观性词语词典、语气词词典、程度副词词典

和否定词词典等7类;提出了一种情感词典自动扩

展方法。[刃杜振雷构建了中文微博情感词典,借鉴

心理学情感划分的研究,将情感词的类别划分为喜、

怒、惧、恶、惊、爱、愁等7类情感,采用不同的策略对

现有的情感资源的情感词进行了细微性情感分类改

造,与完成网络词语和微博表情符号的扩展,构建了

适用于细微性情感分析的中文微博情感词典」10]

2视频弹幕与字幕的情感分析研究模型依据情感分析所使用的方法及弹幕与字幕内容

的特性,归纳出以下5项需要执行的项目:

2.1视频来源与实验数据集数据分析前,先确立实验数据的来源、格式及特

征,以便后续实验。本研究从弹幕视频网站中撷取

弹幕数据,字幕方面从各大字幕组去获取,作为此次

的数据集。弹幕与字幕有明显的特征存在,和一般

的网络评论资料有显著差异。从时间特性来看,弹

幕除标准留言时间外,还有与视频时间轴相呼应的

时间纪录,字幕则只有后者,这是弹幕与字幕最大的

不同。除此之外,两者的单句字数都相当短,且弹幕

常带有强烈的情感表达,这也是与一般评论的不同

之处。2.2

数据清洗与处理“脏数据”主要是指不准确、不完整、有错误的

数据,特别是指电脑系统或资料库[11]o数据清洗与

处理是对各种“脏数据”进行对应的方式处理,得到

标准的、干净的、连续的数据,作为后续应用数据统

计、探勘使用。数据清洗的方法主要有:(1)解决不

完整数据(即值缺失)的方法:在大多数的情况下,

缺失的值必须手工填入(即手工清理)。当然,某些

缺失值是可以从本数据源推导得到的,这就可以使

用如平均值、最大值、最小值或更为复杂的概率估计

代替缺失的值,进而达到清理的目的。(2)错误值

的检测及解决方法:用统计分析的方法识别可能的

错误值或异常值,如偏差分析、识别不遵收分布或回

归方程的值,也可以用简单规则库(常识性规则、业

务特定规则等)检查数据值,或使用不同属性间的

2019年9月何楚佳等:弹幕与字幕关联性分析对于视频发展的参考第9期(总263期)约束、外部的数据来检测和清理数据。(3)重复记

录的检测及消除方法:资料库中属性质相同的记录

被认为是重复记录,通过判断记录间的属性值是否

中发现的新词汇,再依据数据清洗的4个步骤进行

人工筛选,判断是否要加入基本通用的情感词典。

加入时,除了词汇本身,还需标注正向、负向情感的

标示,建构成视频专属的情感词典。相等来检测技术是否相同,相等的记录(即合并/清

除)。合并/清除是消重的基本方法。(4)不一致性

(数据源内部及数据源之间):从多数据源集成的数

据可能有语义冲突,可定义完整性约束用于检测不

2.4弹幕与字幕情感分析对清洗与处理完成的实验资料集做分词与词性

标注,针对形容词与专属情感字典的内容进行匹配,

一致性,也可通过分析数据发现联系,从而使得数据

保持一致丿⑵将上述所提及的方法作为清洗与处理数据的主

轴,能够确保数据的品质及可信度。另外,除了上述

而专属情感字典具有正负值。为了解决语句中反义

词、讽刺等的用法,本研究将正负值分开计算,以防

计算误差,针对其对应的情感值进行统计,再依照单

位时间分群个别计量,计算出各类影片单位时间内

的清洗与处理数据的方法外,也需要考虑一些新词

出现的频率。可利用统计的方式,当新词频到达一

的正负情感词,然后探讨、分析字幕与弹幕之间的情

感关系、视频之间字幕与弹幕的情感关系,得出观众

定数量后,加入后续的情感词典使用。对于此视频的喜恶及观感。2.5情感分析视觉化利用视觉化的方式进行数据的呈现,能够让统

2.3情感词典建构情感词典的建构适用于后续情感值的比对。综

合先前所提及的弹幕与字幕主要特点是简短的语

计出来的数据更直观。先了解弹幕与字幕基本性质

及特色,再利用情感词典匹配计算出弹幕与字幕两

句、用词常为网络流行用语及特殊用词、视频时间轴

等,以及相关研究的探讨,本研究决定使用情感词典

者的情感值,个别的基本资讯与弹幕与字幕的情感

值进行交叉比对,针对上述3个步骤,以视觉化的方

作为本研究数据内容的比对依据。但常规的情感词

典较缺乏网络用语与新兴词汇并不适用于弹幕与字

式呈现其资料,让资料以简单明了的方式呈现,以便

浏览及利用。幕的处理,尤其是弹幕,必须为其建构专属的情感词

典。常规的情感词典在很多资料挖掘的论坛中均有

分享,基于权威性的考量,本研究选择“数据堂”所

通过分析归纳出本研究所需执行的程序:数据

的来源与清洗、专属情感词典的建构、情感值的计

提供的基本情感词典作为基本词汇的来源。建构专

属情感词典的程序为:利用清洗好的数据,针对文本

的地方,进行分词、词性标注,还有添加在处理数据

算、情感值的呈现与代表意义。按照这些程序,建构

弹幕与字幕之情感分析模型,如图1所示。图1展示了弹幕与字幕情感分析的基本模型,

该模型由视频来源与实验资料集、情感词典建构、弹

幕与字幕情感分析、情感分析视觉化等模块组成。

通过该模型了解观看者对于剧情安排、画面呈现等47

2019年9月情报探索第9期(总263期)的真实想法,判断观看者的喜恶程度,为后续视频的

发展、安排、宣传等提供新的判断依据。综合所述,该模型旨在通过弹幕与字幕的情感

分析,从不同类型视频中找出其通则与特性,让商家

能够更接近观看者最真实的感受与想法,给予视频

相关行业多一种评断视频内容的方式。3弹幕与字幕情感值分析3.1情感词典匹配与计算情感匹配是利用“数据堂”所提供的情感词典

为基础,情感词典分为正向情感词典及负向情感词

典两部分,撷取部分内容如表1。使用R软体对于

弹幕与字幕进行分词、词性标注及人工过滤,找出两

者的特殊用语,再根据其正负向情感加入基础情感

词典中成为个别专属的情感词典。表1部分情感词典内容情感取向内容情感取向内容正向情感词典一帆风顺一流一致负向情感词典乞丐乞求大伤将实验资料集用R软体与专属情感词典进行

匹配与统计。匹配方式为一条弹幕作为基本计算单

位,且正负值分开计算,互相不抵销,主要是为了探

究其正负值之间的关系及其相关现象。当一条弹幕

中的词句与正负的专属情感词典中相符合时,分别

计正+1、负-1,不互相抵销。统计方式以每分钟为

单位,进行加总统计。当1分钟的范围为弹幕1~

100条时,此单位时间的情感值为1~

100条弹幕的

情感值的加总,正负分开计算,字幕也以相同的方式

进行匹配与统计。3.2弹幕与字幕情感值分析弹幕的情感值表现是观看者对于剧情所反应的

情感表象,字幕的情感值是随着剧中情节去做改变。

计算出情感值后,针对3种基本的情况,如图2所示。图2弹幕与字幕情感表现的3种基本情况48(1)

单位时间内,正向情感值显著,负向情感值

不显著弹幕:对于单位时间内的剧情、人物、物品、网友

回应,有着大量且正向的回应。字幕:对于单位时间内的视频剧情发展是正向

的。(2)

单位时间内,正向情感值不显著,负向情感

值显著弹幕:对于单位时间内的剧情、人物、物品、网友

回应,有着大量负向的回应。字幕:对于单位时间内的视频剧情发展是负向

的。(3)

单位时间内,正向情感值及负向情感值均

显著弹幕:对于单位时间内的剧情、人物、物品、网友

回应,有着不同的看法。字幕:单位时间内剧情场景切换、不同故事线切

换,引起此现象。从弹幕与字幕的情感数值中可以看出:当单位

时间内,弹幕正向情感显著,负向情感不显著,代表

时间内有事件引起观众的好感;反之,负向情感显

著,正向情感不显著,代表时间内有事件引起观众的

反感;当单位时间内弹幕正、负向情感值皆显著时,

代表时间内有事件引起两极化的评论。通过分析可

以归纳出基本的模式,用以了解观看者对于视频画

面的喜恶,也可以了解什么事件会引起观众的反应

与争论。字幕方面,主要反应的就是剧情的走向,可以了

解剧情的基本起伏,也可以简单判断此视频的节奏。

当单位时间内,字幕正向情感值显著,负向情感值不

显著,代表剧情正在往好的方面发展;反之,则是往

坏的方面发展。当正负情感值皆显著时,代表其中

有转折,意味着可能有切换场景及其他故事线。通过对弹幕及字幕的基本了解,可以推断出一

些基本的模式,用于了解观众的喜恶,也可以了解剧

情的基本信息。4结语网络视频观看者通过弹幕平台,针对视频内容

发表的弹幕评论或观看别人评论,有些评论甚至成

为网络用语并引发新的风潮,种种原因让弹幕越来

越受到观看者的青睐,也因此弹幕评论是观众对视

频的再次加值。随着使用弹幕视频的观看者越来越

多,弹幕评论中的观点和情感将更具有探讨与研究

2019年9月何楚佳等:弹幕与字幕关联性分析对于视频发展的参考第9期(总263期)的实用价值。本研究发现,弹幕及字幕汇入分析时,会有字码

及编码、档案栏位虚值、格式等资料正确性的问题,

以及新词汇的建立,需要在程序进行前做妥善的规

划与处理,以便能顺利执行各阶段的工作。在统计

数据方面,弹幕的标准差远大于字幕,主要是因为弹

幕的情感不一定随着剧情的情绪而起伏,而是直接

反应观看者在观看过程中所引发的个人情绪反应。

4.1弹幕评论与视频字幕的主要性质与特色弹幕方面,评论字数较短,常带有强烈的情感词

汇,此外,还会发展出许多新词汇,且具有领域性,需

要深入探讨、了解才能明确其含义。弹幕正向情感

值显著、负向情感值不显著时,代表在单位时间内有

事件引起观众们的兴趣及好感;反之,当弹幕正向情

感值不显著、负向情感值显著时,代表在单位时间内

有事件引起观众们的反感及厌恶。字幕方面主要是

剧情好坏走向的基本表达,当正向情感显著、负向情

感不显著时,代表此单位时间的剧情正往好的方向

发展;反之,则是往坏的方向发展;当正负情感皆显

著时,情况较少,但多为场景转换至其他故事线为

主。4.2

弹幕评论与字幕之间的关联性通过弹幕评论与字幕之前关联性的分析,对观

众在视频内容播放中的想法及观感进行探究,结果

显示:(1)字幕正向情感显著配上弹幕正向情感显

著,代表观众能够接受此正向发展的剧情;(2)字幕

正向情感显著配上弹幕负向情感显著,观众较不能

接受此剧情的发展;(3)字幕正向显著配上弹幕正

负情感皆显著时,代表观众对于正向发展的剧情产

生不一样的看法与评论;(4)字幕负向情感显著配

上弹幕正向情感显著,代表观众觉得此负向发展的

剧情有点好笑;(5)字幕负向情感显著配上弹幕负

向情感显著,代表观众对于负向发展的剧情表示有

同感,且能够接受此剧情的发展;(6)字幕负向情感

显著配上弹幕正负情感皆显著时,代表对于此剧情

产生不同的看法与评论。没有字幕正负显著配对的

理由是,字幕的词汇、句数都远不如弹幕,所以在单

位时间内,情感值表现就没弹幕评论来得丰富。研究结果发现,通过对弹幕评论与字幕的关联

性研究,可以更贴近观看者对于此视频的人物、剧

情、配乐、特效等的最真实想法,为后续剧情的编排、

社群网络的推广行销或是视频内容的规划、设计、行

销等提供参考。参考文献[1]

TURNEY.

In

Proceedings

of

the

40th

annual

meet­ing

on

association

for

computational

linguistics,

Thumbs

up

or

thumbs

down?:

semantic

orientation

applied

to

unsupervised

classification

of

reviews[

R].

USA:

Association

for

Computational

Linguistics,

2002

:417-424.[2]

陆文星,王燕飞.中文文本情感分析研究综述

[J].计算机应用研究,2012,29(6)

:2014-2017.[3]

徐军,丁孙新,王晓龙.使用机器学习方法进行新

闻的情感自动分类[J].中文信息学报.2007,21(6):95-

100.[4]

YUEN,

RAYMOND WM.

Proceedings

of

the

20th

international

conference

on

Computational

Linguistics,"

Mor­pheme-

based

derivation

of

bipolar

semantic

orientation

of

Chi­nese words.

"

[

R]

.

USA:Association

for

Computational

Linguis-

tics,2004.[5

]朱嫣岚,闵锦,周雅倩,等.基于HowNet的词汇语

义倾向计算[J].中文信息学报,2006,20(1):16-22.[6]

张靖,金浩.汉语词汇主观性提取研究[J].计算

机工程与设计,2010(4)

:915-917.[7]

张靖,金浩.汉语词语情感倾向自动判断研究

[J].

计算机工程,2010,36(23)

:194-196.[8]

柳位平,朱艳辉,栗春亮,等.中文基础情感词词

典构建方法研究[J].计算机应用,2009,29(10)

:2875-2877.[9]

喻琦.中文微博情感分析技术研究[D].杭州:浙

江工商大学,2013.[10]

杜振雷.面向微博短文本的情感分析研究[D].

北京:北京信息科技大学,2013.[11]

CHU

M

Y.

Blissful

Data:

Wisdom

and

Strategies

for

Providing

Meaningful,

Useful,

and

Accessible

Data

for

All

Em-

ployees[

J]

.

AMACOM

Div

American

Mgmt

Assn.

2004:

255

-

256.[12]

蔡晓珍,徐健,吴思竹.面向情感分析的用户评论

过滤模型研究[J].现代图书情报技术,2014,30(4)

:58-64.49