网站首页 > 名家专栏> 文章内容

CCCF专栏 万赟:用户评议的是与非

※发布时间:2021-3-18 12:17:07   ※发布作者:habao   ※出自何处: 

  用户评议有助于消费者了解商品并做出购买决策。本文详细介绍了用户评议的产生和发展历程,描述了用户评议与商品销量的关系,讨论了虚假评论问题和相应的解决方案。

  2020年的新冠疫情虽然让世界上绝大多数人都待在家里,却刺激了网上消费量的大幅增长。在云计算和大数据平台的技术支撑下,大小网商可以通过不同的在线购物平台与消费者接触,产生每日数以万计甚至亿计的交易。这些交易都受到用户产生的一种数据的影响,即用户评议。

  20世纪70年代,纽约州立大学教授菲利普·尼尔森(Philip Nelson)在观察和分析了大量的广告数据之后,发现了一个规律,即产品的广告特征与消费者能否迅速有效地在不同品牌中鉴定同类产品质量有很大关联[1]。于是,他根据消费者验证出商品质量所处的不同时间节点,将所有的商品分成了三大类:第一类是用户在购买之前就可以根据需要检验出商品的质量,像锅碗瓢盆以及其他日用消费品等都属于这一类,尼尔森将它们称为搜索性商品(search products)。对搜索性商品来说,因为可以事先确定质量,顾客最关心的是价格的高低。第二类是用户在使用它们以前难以检验其质量,使用后才知道,它们被称为体验性商品(experience products)。汽车等复杂消费品和餐饮等服务类商品都属于这一门类。还有一部分产品,大多数顾客购买和使用后仍然难以短时间内确定其质量,甚至有时候即便经过很长时间也难以确定。绝大多数保健营养品(比如维生素)和很多服务类产品(比如汽车的保养)都属于这一类。因为难以确定其质量,用户通常凭着对商家提供的信息和对品牌的信任度来购买这类商品,因此它们被称为信用性商品(credence product)[2]。

  从尼尔森产品分类的每一个品种数量来看,我们日常使用的绝大多数产品和服务都属于搜索性商品,其次是体验性和信用性商品。需要指出的是,同一种商品对不同的人来说可以是不同的尼尔森产品分类。比如一本上市不久的新书对还没有读过的人来说是体验性商品,对已经读过的人来说则是搜索性商品。奥斯卡获影片对大多数人来说是搜索性商品,因为其质量已经获得社会的广泛认可。类似的道理,汽车服务对普通人来说是信用性商品,但对有丰富经验的汽车专业人士来说是体验性商品。

  尼尔森产品分类理论出现30年后,我们迎来了互联网电商时代。90年代零售电商刚刚起步时,学术界的经济学家们根据网络的零成本信息传递特点,乐观地预测网络销售将很快进入单纯的价格恶性竞争,从而导致电商利润为零。因为这一预测将所有商品都当成了搜索性商品,忽略了尼尔森对商品分类的洞见和消费者作为普通人的局限(比如普通消费者对风险规避的偏爱和由于面对太多同类产品选择而导致做出决策的行为)。

  我们简单地描述电商在90年代面临的挑战就是,网络绝非把所有商品都变成搜索性商品,恰恰相反,它把所有搜索性商品都变成了体验性商品。消费者关心的不仅仅是价格,还有质量、服务和很多风险因素。在这种情况下,如何为用户提供足够多的产品信息、降低购买风险,如何帮助消费者挑选和决策?当时业界普遍认为需要靠传统的广告和专家对消费者进行购物指导,但现在我们知道,在这一过程中,消费者真正需要的是购买过这件商品的其他人的意见,于是用户评议呼之欲出。

  最早推出用户评议的是如今我们耳熟能详的电商巨头亚马逊。但是1995年亚马逊推出用户评议功能时,却遭到了很多持传统营销的业界人士的和。当时,这一行业推销产品的普遍做法是邀请专业人士写专业评议来引导消费者。而让用户直接写评议风险非常大,因为用户除了写不着边际的正面评议外,也可能写负面评议,这些都有可能导致产品滞销(尽管后来事明并非如此)。除了来自零售业界的质疑,亚马逊的这一做法也遭到部分出版商的。有些公司甚至以诉讼为要求亚马逊的创始人杰夫·贝佐斯(Jeff Bezos)删除负面评价。后来,商家因用户的负面评议起诉电商平台的案件在美国时有发生,尤其是服务行业,一直延续到近几年。随着案例结果的不断积累和相关制度与业界习惯的形成,这种官司后来越来越少。

  亚马逊的贝佐斯在一片质疑声中站在用户角度想问题的营销策略。在他看来,与专业评议相比,用户更希望看到来自同一群体的其他用户的评议,因为后者虽然水平业余但更加可信。因此添加用户评议功能将提高用户体验,从而避免专业评议或者对产品的负面评价得到相反的效果。事明,亚马逊的做法是对的,时任谷歌网络零售部的主管麦克阿提印证了贝佐斯的直觉,他观察到一件商品除了正面评议外,适量的负面评议反而有助于销售,因为千篇一律的正面评价会引起消费者的怀疑。适当的负面评价,也就是承认这件商品并不是完美的,能够让它更具有吸引力。

  在亚马逊提供用户评议功能后,其他零售网商并没有马上跟进。这里有网页技术发展的制约因素,也有网商担心负面的评议可能会影响商品销售而产生的顾虑。直到Web 2.0时期,网商们才逐渐拥抱各种用户生成内容(user generated content),鼓励用户提供评议和其他信息。另外,从1995年开始,作为第三方系统地收集用户对产品和网商的评议服务开始不断出现,比如让用户对各种产品提供评议,对产品的适用性和特点打分的站和对网络零售商进行评议的网站。2000年前后,绝大多数网络零售商和传统零售公司如百思买(BestBuy)、欧迪办公(Office Depot)都提供了让用户评议产品的功能。

  由于普通消费者很少有人主动提供评议,亚马逊在推出用户评议功能的运营初期也需要一大批志愿者的参与,就像拥有很多志愿者一样。为了鼓励这些志愿者,亚马逊采取了不少激励手段,除了根据贡献数量进行排名之外,每年还会给撰写用户评议最多的志愿者颁发“亚马逊用户评议名人堂”虚拟章,有志愿者连续11年获得这项荣誉。以州一个图书馆的图书采购员克劳斯娜(Harriet Klausner)为例,她在 1995~2011年间为亚马逊网站一共撰写了26888条用户评议,平均每天达到4~5条。亚马逊后来还推出了一个产品尝试项目Amazon Vine,邀请一些常为亚马逊某一门类产品写评议的用户试用在亚马逊网站销售的同一门类新产品,并为新产品提供评议。作为回报,这些用户可以保留新产品供自己使用。这些措施成功吸引了一批有时间和精力并热衷于提供评议的亚马逊用户,为亚马逊的大战略目标“数据是核心”提供了用户评议部分重要的原始数据积累。

  大约从2000年起,学术界开始对用户评议和商品销售的关系进行大量的研究和分析,较为一致的结论是,用户评议数量和商品销售量存在正相关关系。但是仅凭这些数据,很难判断到底是哪个因素起主要作用,究竟是销售量的增加带来用户评议的增加,还是后者的增加吸引了更多的销售。显然这两者之间存在一种复杂的动态关系,很可能是相互影响,业界对此倒是有一些比较有意思的发现。

  2008年,网络销售咨询公司Bazaarvoice的市场分析师山姆·戴克尔(Sam Decker)通过实验分析发现,只有当一件商品有了足够多的用户评议时,它的销售量才能获得大幅增长。在他们公司为计算机内存生产商金士顿(Kingston)做过的一次市场调研中,他把从金士顿公司官网上收集到的内存产品用户评议全部移植到欧迪办公网站对应的金士顿内存产品网页上,然后比较金士顿的产品与竞争对手的类似产品在不同数量的用户评议情况下的销售量。

  他发现当某一款金士顿内存产品的评议达到10条或者以上,而竞争对手相同规格的内存产品的评议只有1~2条时,访问该种规格内存产品网页的顾客购买金士顿产品的可能性显著增加。这种影响甚至带动了网站内其他规格金士顿内存的销售量,尽管其他金士顿内存的顾客评议数没有那么多。这大概是因为在消费者的潜意识里,无论是正面还是负面的评议,评议数量越多意味着曾经购买过这种品牌产品的消费者越多,也就说明这种品牌比较流行,于是从众心理让潜在的消费者更愿意购买被评议得比较多的产品品牌。

  戴克尔还发现,用户评议数量的增长速度遵循马太效应,当一件商品的用户评议在10条以内时,新的用户评议增加缓慢;当评议超过20条时,新的评议数量加速度增加。也就是说,对大多数商品而言,当它们的用户评议在10~20条之间时,开始具备加速吸引更多的潜在消费者购买的条件。当具备此条件的商品被一批消费者“发现”时,足够多的用户评议使得消费者有信心购买这一商品,销售量从而开始提速,而增加的销售量和所带来的新用户使得这些被发现的商品评议开始加速增加,当评议超过20条时,更多评议加速涌入,了关于这一商品的用户评议的马太效应积聚。

  戴克尔的发现与国内电商平台里的商户们对用户评议以及销售量数字的重视不谋而合。最近几年,在以淘宝为销售平台的网商之间的竞争中,深谙此道的一些商户除了用各种明暗渠道来收集用户评议外,甚至通过免费邮寄商品到空地址来提高平台显示的销售量数字。因为他们在市场竞争中通过观察发现,销售量和评议条数必须达到一定的数量级或者爆点时,才会引来源源不断的客源。而这一数量级的大小级别和其他竞争对手的数字级别以及整个竞争息息相关。

  随着Web 2.0技术的成熟,用户评议成为几乎所有电商的商品网页标配。像亚马逊这样的超级零售网站,热销商品的用户评议可以达到上千条。起初亚马逊把最新的评议放在最前面,但不久后人们发现,新的评议不一定是最有用的评议。

  一般来讲,产品网页上最多显示十条用户评议,要想看更多的评议需要用户翻页。对热销商品来说,蜂拥而至但质量参差不齐的新评议往往把好的和最有用的早期评议挤到了后面。而很多用户往往只看产品首页的评议就做出了是否购买的决定。如果产品首页上着平庸无味的简单评议,很难满足消费者对信息的需求。亚马逊的解决方案是,在 2008年前后增加用户评议是否有用的投票功能。

  这一功能对亚马逊网站浏览者而言就是位于每一条产品评议下面的一行字:“这条评议对您有用吗?”浏览者如果已经登录至亚马逊网站的个人账号,就可以通过简单地点击这行字右边的“是”或者“否”进行投票。当前的投票结果则显示在这条评议的左上方,比如“12/25人认为此评议有用”。通过这种用户自愿参与的投票过滤机制,被绝大多数人认为有用的用户评议被显示在产品首页上。该功能有点类似于社交平台的“点赞”功能,但是允许用户给出正负两面的评价。这样一来,同样星级的用户评议被是否有帮助的投票功能区分开,从而自动筛选出最有帮助的评议。通过引进这种用户评议机制,好的产品评议能够被更多的浏览者读到,提高了产品销售的可能性。根据有关专家的估计,这个新功能的增加仅在音像商品一个门类上就为亚马逊增加了 20%的销售量和27亿美元的销售额。

  亚马逊的这一举措巧妙地挖掘到了更多的用户贡献内容,与早先根据市场规律统计分析发现的百分之一不谋而合。

  百分之一是指每100个上线个人会对内容进行简单评价,其余89个人则只做观众。这一意味着在购买了商品后愿意主动添加评议的消费者大概只占所有购买者的1%(也可以理解为一个消费者每购买100件商品大概会为1件商品写评议)。显然对商家而言,在有了1%的用户提供评议内容后,如果再有一个让潜在10%的用户参与提供简单投票的机会,将会更好地利用潜在用户内容资源,这或许就是亚马逊用户评议投票功能的理论溯源。

  任何功能都有可能存在负面的影响,比如用户投票功能在绝大多数情况下让最早出现的用户评议成为最有帮助的评议,而且这些最有帮助的评议一旦产生后,可以利用马太效应继续占据并且以此巩固后来的用户关注,使得早期用户评议对商品的评估占据了过大比例的影响,成为用户评议的来源之一[3]。

  用户评议显然不完美,还存在着各种缺陷,包括前面提到的筛选机制所带来的。但是最大的用户评议缺陷是用户对商品或者服务的星级评价几乎总是以所谓的J型曲线(也被称为双峰曲线(bimodal))分布,这一现象引起了很多学者的关注[4]。

  从统计角度来看,如果抽样调查一群用户对一件商品或者服务的评价,其结果应该是呈钟形曲线或者单峰(unimodal)曲线分布的,也就是大多数用户给予中性评价(3星),其余评价的数量随着向最好与最差的两个极端延伸而逐渐减少。但是电商平台上一件商品所收到的用户评议的星级分布却是以五星评价为最多(最高峰值),然后随着星级的降低而逐渐减低,在三星或者二星后到达最低,然后又逐渐上升,在一星时达到另一个最高峰值(见图1)。业界和学术界通常用选择(self-selection bias)来解释这种双峰分布的现象。

  简单来说,选择是指提供评议的用户群体并不是从所有人群中随机拣选的,而是那批肯花时间来评议产品的特殊人群,显然这些人愿意这样做是受到了比一般用户更强的动机的。如果根据不同的动机具体分析的话,选择至少可以细分出购买(purchase bias)和报告(under reporting bias)两种情况。前者是指只有当一个用户对一件商品或者服务的期望值高的情况下才会去购买,所以在购买后对该产品或者服务会有比均值偏高的评价;后者则是指用户只有对一件商品或者服务极为满意或者不满意的情况下,才会选择去分享评议来表达情绪。无论哪种情况,都会导致极端评价比中间评价产生更多的双峰现象。

  双峰现象对使用用户评议的消费者来说是一个挑战。同时存在两个不同极端的评议会让很多用户无所适从,从而产生决策困难。诺贝尔经济学获得者·卡尼曼(Daniel Kahneman)和他早逝的同事阿摩司·特维尔斯基(Amos Tversky)提出的预期理论(prospect theory)指出,消费者通常对预期风险的度大于同样程度的预期收入。换句话说,多数人都是厌恶风险甚于相应的回报。这意味着哪怕用户评议里五星多于一星,很多消费者可能仍然会因为存在较多的一星评价而不想冒风险做出购买决策,从而导致决策困难。

  另外,以J型曲线为主的双峰分布通常会导致均值偏高,也就是说在这种的影响下,仅从均值来看用户评议的话,绝大多数商品的平均星级都是5星或者4星,这些大量的同星级同品种的商品的存在降低了用户评级的比较价值。

  除了用户作为有限人存在的选择外,造成双峰分布的另一个因素是虚假评议在两种极端的累积。

  由于用户评议对产品的销售有着显著的推动作用,很多商家试图用户评议,其中最主要的手段是雇用写手公司或者个人为自己的产品添加虚假评议。这一趋势,使虚假用户评议的甄别成为最近十几年来电商和各种用户评议平台面临的主要挑战。

  商业利益的驱动使几乎所有电商平台都存在或多或少的虚假评议的渗透。除了雇用职业虚假评议写手或者公司为自己的产品编写正面评议外,不少商家为了消除负面评议的影响,甚至不惜冒法律的风险。有一段时期,专门对网络零售商家的信誉进行评估的ResellerRatings.com网站鼓励它的用户提高密码的难度,因为有显示,一些商家悄悄破解了用户的密码,然后冒充用户登录该网站修改用户对他们的负面评议。

  亚马逊也受到了不同程度的虚假评议的渗透。一些在亚马逊平台销售产品的电商除了雇用专门的写手对自己的产品发表正面的评议外,还对竞争对手的产品发表负面的评议。以评议为主要内容的旅游网站到到网(Tripadvisor)和餐馆评议网站雅普网(Yelp)都在很大程度上受到了虚假评议的困扰。国内的大众点评诚信团队在2015年曾经了60多万个造假账号,处理了接近2万家涉及虚假评议的商家。

  针对这一现象,学术界提出了不少甄别虚假评议的方法。这些方法大致可以归为两类,一类是通过自然语言处理(NLP)(比如语义和语法分析)发现虚假评议的遣词造句、语法细节甚至情感度等特征;另一类方法是用评议的元数据(meta data)(比如评议者身份、评议次数、评议间隔时间以及与其他评议者的关系等特点)进行甄别。

  用自然语言处理发现虚假评议的前提是辨别出一批可以作为学习素材的虚假评议,但是人工辨别虚假评议本身就是一个挑战,因为业界并没有一个鉴别虚假评议的客观标准,只能依靠专家统一意见的方式。有的学者用让志愿者编写虚假评议的方法来自主产生虚假评议,然后将其作为学习素材,但这种方法得到的虚假评议在文本风格上和真正的虚假评议差别很大。

  相对比较可靠的渠道是通过元数据的一些规律来寻找没有太多争议的虚假评议,比如同一用户反复发布对不同商品的相同评议,或者来自不同用户的评议内容基本相同,这些都是最早出现的虚假评议制造方式,可以被电商平台通过简单的过滤机制迅速察觉,并且积累成为学习素材。

  与自然语言分析相比,对评议元数据的分析能够提供更加客观的依据。比如用户如果在不到一天的时间内发布了大量仅有文字但是没有照片支持的不同地区的餐馆评议信息,我们基本可以肯定其虚假性。另外,除部分特殊情况(比如前面的图书管理员发布书评)外,如果一个用户在一个产品门类内持续不断发布大量的极端(五星或者一星)评议信息,其真实性也应该被怀疑。

  事实上,随着电商平台对虚假评议的内部能力不断增强,过去简单的造假方式已经不再有效,甚至达到了难以为继的程度。像雅普这类电商平台为了打击造假甚至使用钓鱼方式发现试图造假的商家,于是越来越多的商家不再雇用造假公司编写评议,而是通过各种励手段鼓励购买过其产品和服务的用户提供评议。这种方式产生的评议虽然不是虚假评议,但是用户因利益而给出五星的极端评价和缺乏细节的简单评议并不能为其他用户提供更有价值的帮助,反而增加了更多的“杂音”。

  从立法方面来看,美国联邦贸易委员会已经将虚假评论作为与虚假广告等同的不正当竞争的手段,发布一条虚假评论最高会被罚款一万美元。对于商家通过赠与购物卡或者礼物的方式鼓励用户提供评议的行为,法律则受到激励的用户必须在评论中对此做出声明。

  通过对被确认的虚假评议的分析,我们可以发现一些有意思的细节,比如虚假评议的行文风格与想象中真实评议的写作风格并不一致,这是因为编写虚假评议的人在有意识地模仿真实评议的风格。但是也有人发现,不一致的写作风格的评议并不是虚假评议的独有特点,比如虚假评议比真实评议包含更多的情感用词,这可能是因为虚假评议试图用感性来读者,但前面提到的真实用户的选择也可能造成这一现象,当用户对购买的商品或者服务特别满意或者不满意时都有可能使用更多的正面或负面情感用词。

  甄别用户商品和服务评议的虚假性所面临的挑战只是整个用户数据分析挑战的冰山一角。从目前的趋势来看,除了虚假评议外,着英文社交的各种假新闻、假消息对社会影响更大,而且更加难以甄别,这一现象引起了计算机科学、信息科学和社会学等各个相关领域学术界学者们的关注,以至于对假新闻和假评议的甄别成为很多学术会议的一个专门讨论项目。尽管如此,随着以深度学习为基础的人工智能方法在自然语言处理等方面的不断发展,我们有理由相信,这一方对我们更加准确地甄别虚假评议和充分利用用户评议所包含的重要产品信息提供新的技术突破。

  特别声明:中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权,未经CCF允许,不得转载本刊文字及照片,否则被视为侵权。对于侵权行为,CCF将追究其法律责任

  CCCF特邀专栏作家。美国休斯敦大学维多利亚分校教授。主要研究方向为电子商务和互联网应用。著有《电商进化史》一书(机械工业出版社2015 年出版)。段曦打谢娜