• 1.25 MB
  • 2022-06-16 12:40:14 发布

基于在线评论的消费体验知识发现研究--以蜜月游产品为例

  • 92页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
分类号:F27密级:公开UDC:005编号:201421703013河北工业大学硕士学位论文基于在线评论的消费体验知识发现研究——以蜜月游产品为例论文作者:杨泽永学生类别:全日制学科门类:管理学学科专业:工商管理指导教师:刘宏职称:教授 DissertationSubmittedtoHebeiUniversityofTechnologyforTheMasterDegreeofCorporateManagementASTUDYONKNOWLEDGEDISCOVERYOFCONSUMPTIONEXPERIENCEBASEDONONLINEREVIEWS:TAKETHEEXAMPLEOFHONEYMOONByYangZeyongSupervisor:Prof.LiuHongDecember2016 摘要伴随着互联网技术和旅游行业的快速发展,国内旅游市场正渐渐地从传统线下旅游向线上旅游转变。现在,网络旅游产品种类越来越多,愈加丰富,主要有跟团游、自驾游、自由行、主题游等,其中主题游又可细分为蜜月游、户外游、深度摄影、自然探索等产品,尤其现在蜜月游受到了众多旅游消费者的喜爱、追捧。此外,中国悠久的传统观念一直将结婚视作人生中最重要的部分,与此伴随着90后青年逐渐达到适婚年龄,因此从现在来看中国又迎来了新一轮结婚高峰期。90后富有个性,酷爱西式婚礼形式,因而源自西方的蜜月游就受到了国内消费者的青睐。与常规旅游产品比较,蜜月游更重视消费体验。婚礼对于每个人来说至关重要,因此消费者在选择蜜月游产品时会十分慎重,广泛搜集相关信息。而在线评论信息具有可靠性、易获得性等特点,则消费者购买旅游产品时更多依赖于在线评论,所以值得深入挖掘评论背后隐藏知识,即:对其进行知识发现研究。总之,针对在线评论数据开展消费体验知识发现研究是十分重要并富有意义的。本文以蜜月游产品为例,运用文本挖掘、统计分析等研究方法,通过文本分词、TF-IDF权重计算、VSM向量空间构建、主成分提取及聚类分析等分析方法对源自携程网与途牛网两大旅游网站的蜜月游在线评论进行了消费体验知识发现研究,研究结果为:(1)在蜜月游中,消费者主要关注8个消费体验属性,分别为强制消费、导游素质、住宿环境、服务质量、出行便利、餐饮质量、行程安排以及旅途心情;(2)蜜月游消费群体可细分为三类,其中第一类消费群体非常重视旅游过程中是否存在强制消费现象,第二类消费群体在8个消费体验指标上均具有较高要求,第三类消费群体非常重视旅游过程中享受到的服务质量、饮食情况。最后根据消费体验知识发现研究结论,从网络评价机制、蜜月游产品设计研发等角度为蜜月游公司提供了针对性建议。关键字:在线评论;消费体验;知识发现;文本挖掘I ABSTRACTWiththerapiddevelopmentofInternettechnologyandtourismindustry,thedomestictourismmarketisgraduallychangingfromtraditionalofflinetourismtoonlinetourism.Now,therearemoreandmoretypesofonlinetravelproducts.Theymainlyincludegrouptour,ZijiaYou,freeexerciseandthemetour,whichcanbedividedintohoneymoonthemetour,outdoortravel,depthphotography,naturalexploration.Inparticular,honeymoonisbelovedbymanytouristconsumers.Inaddition,Chinesetraditionofmarriagehasbeenregardedasthemostimportantpartoflife,andwith90sgenerationgraduallyarereachingthemarriageableage,sofromnowChinawillwelcomeinanewroundofmarriagepeak.90shaverichpersonalityandloveWestern-stylewedding,sohoneymoonwhichoriginatedfromtheWest,gainsthepopularityamongdomesticconsumers.Comparedwithconventionaltourismproducts,honeymoonpaysmoreattentiontoconsumerexperience.Weddingisessentialforeveryone,soconsumersarecarefultochooseahoneymoonproductandextensivelycollectrelevantinformation.Theonlinereviewinformationhasthecharacteristicsofreliability,accessibility,andsoon,soconsumersshouldpaymoreattentiontotheonlinereviewswhenpurchasingthetourismproduct.Itisworthytodigthehiddenknowledgeinthereviews.Inaword,itisveryimportantandmeaningfultocarryouttheresearchontheknowledgediscoveryofconsumptionexperiencebasedontheonlinereviewdata.Inordertocarryouttheresearchontheknowledgediscoveryofconsumptionexperiencebasedontheonlinereviewdata,thispapertakesthehoneymoonasanexample,mainlyusestextsegmentation,TF-IDFweightcalculation,VSMvectorspaceconstruction,principalcomponentextractionandclusteringanalysisandotheranalyticalmethodstoanalyzeonlinereviewsfromCtripandTuniuthroughtextminingandstatisticalanalysis.Theresultsofthestudyis:(1)Inthehoneymoon,consumersaremainlyconcernedabouttheeightconsumerexperienceattributes,theyareforcedconsumption,tourguidesquality,accommodation,servicequality,travelconvenience,foodquality,itineraryandtravelmood;(2)Groupscanbedividedintothreecategories,ofwhichthefirstclassofconsumergroupsattachgreatimportancetoforcedconsumptionduringtheprocessoftourism,thesecondgrouphaveahigherdemandattheeightconsumerexperienceindicators,thethirdIII classconsumergroupsattachgreatimportancetothequalityofserviceanddiet.Finally,basedontheconclusionofconsumerexperienceknowledgediscovery,thispaperprovidessomesuggestionsforhoneymoon’scompaniesfromtheaspectsofnetworkevaluationmechanism,honeymoonproductdesignandsoon.KEYWORDS:OnlineReviews;ConsumptionExperience;KnowledgeDiscovery;TextMining 目录摘要.................................................................................................................................IABSTRACT..........................................................................................................................III目录................................................................................................................................V第一章绪论...........................................................................................................................11.1研究背景..........................................................................................................................11.2研究意义..........................................................................................................................21.2.1理论意义................................................................................................................21.2.2实践意义................................................................................................................31.3研究目的与内容..............................................................................................................31.4研究方法..........................................................................................................................41.4.1研究方法................................................................................................................41.4.2技术路线................................................................................................................41.5论文主要创新点..............................................................................................................61.6本章小结..........................................................................................................................6第二章理论与技术基础概述...............................................................................................72.1在线评论相关理论..........................................................................................................72.1.1口碑........................................................................................................................72.1.2网络口碑................................................................................................................82.1.3在线评论................................................................................................................92.1.4国内外研究现状..................................................................................................102.2消费体验........................................................................................................................132.2.1消费体验内涵......................................................................................................132.2.2消费体验维度......................................................................................................132.2.3国内外研究现状..................................................................................................162.3知识发现........................................................................................................................182.4技术基础........................................................................................................................182.4.1文本分词..............................................................................................................182.4.1.1文本分词的定义........................................................................................182.4.1.2分词算法及分词工具................................................................................19V 2.4.2停用词过滤..........................................................................................................212.4.3特征词选择..........................................................................................................212.4.4文本表示..............................................................................................................232.4.5聚类分析..............................................................................................................242.5本章小结........................................................................................................................25第三章研究设计.................................................................................................................273.1问题的提出....................................................................................................................273.2旅游网站选择................................................................................................................283.3在线评论数据分析方法选择........................................................................................283.4在线评论范围界定........................................................................................................303.5本章小结........................................................................................................................31第四章蜜月游在线评论数据收集与预处理.....................................................................334.1在线评论数据收集........................................................................................................334.2在线评论数据预处理....................................................................................................384.2.1初步预处理..........................................................................................................384.2.2评论文本分词......................................................................................................394.3蜜月游产品特征词的初步选择....................................................................................404.4在线评论文本表示........................................................................................................434.4.1TF-IDF权重计算..................................................................................................434.4.2VSM向量空间构建.............................................................................................454.5本章小结........................................................................................................................46第五章蜜月游消费体验知识发现.....................................................................................475.1基于因子分析法的蜜月游特征词提取........................................................................475.1.1KMO和Bartlett效度检验...................................................................................475.1.2蜜月游主成分提取..............................................................................................485.1.3蜜月游特征词命名及其权重计算......................................................................515.1.4蜜月游特征词VSM向量空间构建...................................................................565.2基于聚类分析的蜜月游消费群体划分........................................................................595.2.1基于二阶聚类的蜜月游消费群体类别数目确定..............................................595.2.2基于K-均值聚类的蜜月游消费群体划分.........................................................605.2.3基于判别分析的聚类效果检验..........................................................................665.3评价解释.........................................................................................................................675.4本章小结.........................................................................................................................69第六章结论与展望.............................................................................................................71 6.1研究结论........................................................................................................................716.2营销建议........................................................................................................................726.3研究局限与展望............................................................................................................73参考文献...............................................................................................................................74攻读学位期间所取得的相关科研成果...............................................................................81致谢...............................................................................................................................83VII 第一章绪论本章将主要介绍论文研究背景、研究意义、研究目的与内容、研究方法以及论文的主要创新点等内容,通过叙述这些内容可以使论文研究思绪变得加倍清晰。1.1研究背景近几年来国家一直高度关注民生问题,通过不断改善并进一步发展民生、为民众提供了大量工作岗位,最终提高了人们的整体生活水平、刺激了国内消费需求,尤其是参与旅游的需求。2015年07月15日中国互联网络信息中心发布的《2014年中国在线旅行预订市场研究报告》[1]指出到2014年12月为止,通过互联网购买飞机票与火车票、预定住宿、购买旅游产品的网民人数达到2.22亿人次,同时与2013年年底相比较,同比增长幅度高达4096万人,同比增长率为22.7%,网民使用率由29.3%提升至34.2%。伴随着互联网技术和旅游行业的快速发展,国内旅游市场正渐渐地从传统线下旅游向线上旅游转变。消费者不仅可以在线上旅游网站预定酒店、飞机票、火车票、汽车票等,还可以通过线上旅游网站去选择旅游目的地、规划自己的旅程、检索并阅读旅游攻略、旅游产品预定、安排交通食宿以及在线评论的发布等。由于现阶段旅游行业包括国内外各地著名景点,所以可以满足消费者国内旅游需要和国外旅游需要。现在,网络旅游产品种类越来越多,愈加丰富,主要有跟团游、自驾游、自由行、主题游等,其中主题游又可细分为蜜月游、户外游、深度摄影、自然探索等产品。2015年作为众多主题旅游产品之一的蜜月游在消费者中备受热捧[2]。此外,中国悠久的传统观念一直将结婚视作人生中最重要的部分,与此伴随着90后青年逐渐达到适婚年龄,因此从现在来看中国又迎来了新一轮结婚高峰期。目前的年轻人喜欢个性、追求潮流时尚,对于婚礼的举办策划也喜欢追随国外的脚步,如:采取西式的婚礼举行仪式。现阶段人们的生活水平得到了显著提高,对于生活的态度渐渐发生了些许改变,蜜月游在国内受到了越来越多年轻人的喜爱与追捧,以致蜜月旅游消费支出在结婚总支出中所占比重愈来愈大,逐渐成为了结婚消费中的重要组成部分。蜜月游市场潜力是非常巨大的,消费者需求同样是非常旺盛的。与常规旅游相比较,在蜜月游中消费群体具有独特的特征,其更重视旅游期间的消费体验,这种体验不仅包括旅游景区的景色还包括旅行过程中涉及到的各种服务体验等。消费者对于1 旅游过程中的住宿、饮食等方面要求可能与常规旅游相应要求是不同的。因此,研究消费者比较注重哪些蜜月游产品消费体验属性是很有必要的。目前学者们对消费体验进行了研究,如:林略和张美荣根据80后消费者的特点对于消费体验如何影响这类消费群体购买意愿展开了研究[3];王新新和潘洪涛[4]通过梳理海外相关文献,总结概括出了关于消费体验的现阶段研究成果;吉拥泽[5]对市场营销中消费体验过程管理模式进行了深入研究等。虽然消费体验的研究取得了一定的成果,但是在现有研究中主要是采用问卷调查的方式去收集数据,缺乏从与消费体验相关的文本信息方面深入挖掘数据的研究。此外,消费者通过在线预订旅游时,在旅游结束时会对所购服务进行评价,生成内容中会涉及到消费者的消费体验。结婚是人生头等大事,因此消费者在选择蜜月游产品时会非常慎重并主动搜集相关信息了解相应产品情况。在众多信息中,由于只有曾购买过某产品的消费者才能对该产品进行撰写在线评论,因此在线评论具有较高可靠性,能够真实反映出这款旅游产品的情况。同时消费者在搜集在线评论时只需在浏览旅游产品时便可轻易搜集到,综合来说消费者通过网络购买旅游产品时更多依靠在线评论来了解其他顾客对于这款蜜月游的评价。经过浏览其他顾客撰写的在线评论,顾客可以预先构建出一种基于其他顾客消费体验之上的初步消费体验,辅助其决定是否购买。因此,用旅游网站中在线评论信息去挖掘信息中所隐藏的潜在消费体验相关知识是有价值的。于是,在弥补已有研究不足的基础上,结合在线评论、消费体验和知识发现等理论,以基于在线评论的消费体验知识发现研究为研究方向,试图通过搜集旅游网站上消费者生成内容文本数据并对数据进行整理、判别分析从而挖掘出其中潜在的隐性知识,即:消费者比较关注蜜月游产品的哪些消费体验属性以及蜜月游消费群体应划分为几类,最终能够针对旅游企业更好为消费者创造消费体验和开展营销活动提出有针对性的宝贵建议,促进旅游业的快速发展。1.2研究意义本文将文本挖掘理论技术引入到市场营销领域中来,在大量阅读了国内外已有相关研究文献的基础上,对旅游网站中的蜜月游消费者的在线评论数据进行了知识发现,研究了国内蜜月旅游行业中消费体验的构成以及相应的旅游消费群体分类,这一论文课题无论是在理论层面还是实践层面都拥有意义重大的理论意义以及现实意义。1.2.1理论意义在理论方面来说,本论文弥补了消费体验的研究不足。由于旅游行业消费者体验较复杂、抽象,目前的消费体验研究中较少有人去针对旅游行业进行研究。本研究采用文本挖掘、聚类分析等方法对于游客在旅游网站上游后评价进行了文本内容挖掘,2 深入挖掘了消费者旅游网络评论背后隐藏的深层次观点信息,使评论中所包含隐性知识得以显性化,同时探索了蜜月游行业的消费体验构成和相应的旅游消费群体分类。因此,本文不仅丰富了消费体验方面的理论体系,同时也拓展和丰富了在线评论的相关研究。1.2.2实践意义在实践方面来说,关于旅游行业的消费者的游后体验评论以离散的形式存在于互联网中,本文通过文本挖掘、聚类分析实现了将消费者游后体验从离散信息到系统信息的转变,经过知识发现可以更好地挖掘出消费者游后评价中的潜在需求,因此此研究可以为旅游企业提供出非常重要的市场情报信息,有利于企业紧紧跟随目标顾客的消费需求。同时蜜月旅游类企业可以根据本论文的消费体验知识构成研究结果去完善其在线评论版块以及按照旅游消费者群体分类推出具有针对性的旅游产品或营销活动。1.3研究目的与内容本文研究目的是借鉴以往在线评论、消费体验的学术成果以及文本挖掘相关的研究方法与过程,通过将评论文本数字化、特征项选择、聚类分析等对蜜月游消费者在线评论进行知识发现研究,考察研究消费者对于蜜月游类旅游产品比较关注的产品属性有哪些以及不同消费者对于产品属性的关注程度是否存在差异性,即:发现蜜月旅游类消费体验知识的相关构成要素以及消费者群体的分类。最后根据研究结果,对旅游企业提出一些关于更好创造消费者体验、将旅游产品按照消费者分类进行细分等方面针对性建议。在本文中,主要研究内容有以下几个部分:第一章为绪论。一方面介绍了本文的研究背景、研究意义(包含理论意义和实践意义),另一方面论述了本文的研究目的与内容、研究方法以及本论文主要创新点。第二章为理论与技术基础概述。本章一方面主要阐述了本文的在线评论、消费体验、知识发现等基本理论基础及它们相关的国内外研究现状;另一方面详细介绍了本研究所涉及到的文本分词、特征词选择、停用词过滤、文本表示、聚类分析等技术基础。第三章为研究设计。本章主要介绍了问题的提出、蜜月游在线评论数据主要在哪些旅游网站中采集、评论数据分析方法选择以及从两个方面对有效在线评论进行了范围界定,通过研究设计为后面的数据搜集、处理分析等奠定了基础。第四章为蜜月游在线评论数据收集与处理。本章中的在线评论的数据收集与处理是对于蜜月游评论进行知识发现研究的第一步,主要是通过集搜客数据抓取工具与人工抓取相结合的方式在旅游网站上采集蜜月旅游相关的在线评论,然后运用预处理技3 术将上述搜集到的文本评论内容做进一步处理,如:删除不符合要求的评论、繁转简、删除重复评论等。此外在这章中还进行了从蜜月游评论数据中初步选择特征词、计算TF-IDF权重以及构建VSM向量空间等研究分析。本章是接下来一章数据分析的基础与前提,因此本章数据收集与预处理的好坏将关系到下章节数据分析的质量。第五章为蜜月游消费体验知识发现。本章节主要是在上章数据收集和处理基础上,进行蜜月游特征词提取、对蜜月游消费群体进行聚类分析、评价解释等,挖掘、发现评论背后隐藏的知识并探讨旅游者对于蜜月游类旅游产品集中关注其哪些属性同时将蜜月游消费群体进行划分,从而实现对蜜月游市场的细分。总之,本章主要是对于前面整理好的数据进行数据挖掘,发现一些与消费体验相关的隐性知识。第六章为研究结论与展望。主要是对于上述研究成果进行总结,提出主要研究结论,同时根据研究结论为旅游行业提出具有针对性的营销建议,最后再指出本研究存在的一些不足以及未来研究发展方向。1.4研究方法1.4.1研究方法经过大量阅读海内外相关学术成果并进行知识总结概括,根据主要研究内容和目的,本文在研究过程中主要运用了文献研究、信息检索、数据挖掘、特征词选择以及聚类分析等研究处理方法。同时为了提高研究结果的有效性,在研究中注意多种论文研究方法的综合运用与数据处理技术的结合使用,具体研究方法如下:(1)文献研究。目前国内外学者对于在线评论、消费体验已经通过研究取得了一定的学术成果,本研究试图经过检索、阅读并整理归纳现有的国内外相关研究文献和研究成果,梳理出在线评论和消费体验相关的知识点同时进一步了解在线评论与消费体验这两方面的研究现状,发现值得研究的论文课题并为今后撰写论文奠定了坚实的基本理论基础。(2)文本挖掘。文本挖掘又叫作文本知识发现[6]或者是文本数据挖掘[7],指在众多文本数据资料之间提取出有用知识的过程,并且经过将知识用于信息的组织为以后提供可靠借鉴[8]。本文中主要是运用了文本知识发现中的文本预处理、特征词选择等具体文本数据分析技术。(3)统计分析。本文将在线评论文本数据转化为数值数据并在SPSS18中开展数据分析,主要包括因子分析、聚类分析、判别分析等。1.4.2技术路线结合上面的论述,本文的技术路线图如下图1.1所示:4 图1.1技术路线图5 1.5论文主要创新点本文将文本挖掘引入到了市场营销研究范畴中来,拓展并丰富了营销领域的研究理论。通过对旅游网站上在线评论进行深入挖掘,发现了其背后深藏的与消费体验相关的隐性知识,丰富了消费体验理论体系。此外在研究过程中,本文采用了词频与文本文档频率相结合的方式去初步选择特征词,最后再采取了因子分析法去提取蜜月游特征词。1.6本章小结本章首先介绍了论文研究背景、研究意义(理论意义和实践意义),然后进一步撰写了本文的研究目的与内容、论文所运用的的研究方法,最后提出了论文主要创新点。通过对本章节主要内容的阐述,可以为后面论文工作开展提供指导并做好铺垫工作。6 第二章理论与技术基础概述理论是研究的基础与根本,至关重要。本章主要介绍论文的理论基础、技术基础,其中理论基础主要包括在线评论、消费体验与知识发现;而技术基础不仅包含本分词、停用词过滤、特征词选择,而且还包含文本表示和聚类分析。2.1在线评论相关理论2.1.1口碑在很久之前,古人便已意识到了口碑在宣传中发挥着至关重要的作用[9],如:宋朝期间的《五灯会元》中存在一诗句“劝君不用携顽石,路上行人口似碑”。口碑本质上其实就是一种信息传播分散的方式。人们在与他人交流过程中会将自己最近所遇到的事情、自己对于某物或者某事的态度以及所阅读的新闻等等内容传递给对方。传统意义层面上的口碑主要是指消费者对于某一产品或者某种服务的评价。在1967年,口碑(Word-of-Mouth,简称为WOM)一词的定义首先由JohanArndt[10]提出,即:口碑主要是指一种人们之间非贸易、非正式的交流沟通方法。伴随着时代的逐渐进步,国内外学者们通过更深入研究口碑进而拓宽了口碑的含义,如:在JohanArndt口碑定义基础之上,Westbrook[11]对之前口碑的含义做了进一步的拓展,并且他提出“口碑其实是指人与人之间所展开与某种品牌、服务和产品相关的非正式沟通交流”;Helm与Schlei经过研究将群体行为引入到了口碑的内涵中来,同时这两位国外学者认为口碑应是介于群体之间所进行关于公司、产品、服务的口头沟通交流[12];在综合分析口碑要素以及口碑概念的基础上,董大海和刘琰为口碑进行了新的定义,即:口碑是指介于拥有较强关系的消费者之间的一种非贸易性、双向互动的非正式交流方法;口碑中的内容一般是针对与消费者行为有关的产品或者服务的评论,往往也拥有一定程度上的效价[13]。同时伴随着经济与商业的快速发展,口碑从原来单纯的信息传播方式,逐渐被引入到商业研究与应用中来,尤其是市场营销领域,如:Bansal等[14]将口碑视作一种营销的方法同时在商业领域中把口碑进行了灵活运用;张德鹏、陈少霞和彭家敏经过研究消费者口碑价值并且基于社会影响理论,探究了消费者口碑的价值行程机理,同时为企业提出了许多如何更好应用口碑创造价值建议[15];吕莉根据由Talkers(讨论者)、7 Topics(话题)、Tools(工具)、TakingPart(参与)和Tracking(跟踪)这五个方面组成的5T法则探索了企业进行口碑营销的五大步骤[16];马向阳、白丽群以及杨颂[17]基于社会认同理论,以消费者作为研究出发点,探索了内群体偏好与文化认同是否会对区域品牌口碑传播产生影响以及是如何影响的,结果表明:基于文化认同的作用下,内群体成员关于区域品牌具有某种水平上的偏好同时内群体成员愿意向他人去传播与区域品牌相关的正向口碑。虽然传统口碑在企业营销过程中发挥着越来越重要的作用并且种种优势突出,但是由于口碑容易受到传播者与接收者之间的地域界限、人际关系界限等限制,因此传统意义上的口碑也存在着一些劣势与不足。2.1.2网络口碑伴随着互联网技术的渐渐发展以及互联网慢慢得以普及,作为传统口碑新形式的网络口碑在互联网背景下诞生了,其中网络口碑(internetword-of-mouth)有时又被称作电子口碑(ElectronicWord-of-Mouth,缩写为eWOM)、虚拟口碑(VirtualWord-of-Mouth)、在线口碑(onlineWord-of-Mouth)。网络口碑的泛现丰富了口碑形式,同时也拓宽了传统口碑的传播路径。网络口碑弥补了传统口碑存在的一些不足,不受人与人之间的地域界限、人际关系界限等限制,同时其往往具备传播范围比较大、传播成本比较低、传播速度快以及影响力比较大、匿名性等特点。正是由于网络口碑存在众多传统口碑无法媲美的优点,无论是在商业实践中还是学术研究中网络口碑都受到了广泛的关注与重视。国内外学者们渐渐开始展开了关于网络口碑的研究探索,期望更深入的去了解网络口碑以及尽可能去丰富网络口碑的相关理论。到现在为止,国内外学者们通过对网络口碑进行研究,根据自身理解并结合相关研究赋予了网络口碑许多定义,如:Gelb和Johnson[18]认为作为口碑众多传播形式之一的网络口碑主要基于互联网进行信息的传播;Tax、Brown和Chandrashekaran[19]认为网络口碑指信息传递由声音转换成书写并在网络上发布文章的交流沟通形式;Bussiere[20]认为网络口碑主要是指借助于网络论坛、贴吧等网络应用,在顾客与其他顾客之间交流沟通自己的购物体验的行为;在2003年Newman学者[21]经过对网络口碑进行研究,认为其主要是指在互联网作为中介的情况下消费者彼此间所交换传递的信息文本;Hennig-Thurau等[22]研究发现,网络口碑主要是指消费者运用互联网技术传播给其他消费者或者群体组织的与某公司本身、产品、服务等相关的评论,其中前者消费者可以是该企业目前实际拥有的消费者、之前拥有的消费者或者还可以是潜在的消费者;Thorson和Rodgers[23]认为网络口碑是利用互联网信息技术去向他人传播的与公司本身、服务、产品等相关的比较个性化的负面或者正面陈述;Litvin等[24]研究认为网络口碑是指在互联网中信息沟通交流的双方之间相互交流与某公司产品或者服务有关的使用感受或者特性等内容;张晓飞和董大海[25]通过归纳概括前人对网络口碑的定义,最终提出网络口碑是指以互联网作8 为信息传播的渠道,各个网络用户在彼此之间间传播分享的与某公司品牌、产品和服务等相关的用户个人的消费体验、评论、推荐信息。除了对网络口碑定义进行了广泛研究外,国内外学者们还对网络口碑的其他方面进行了深入研究,如:Verhagen、Nauta和Feldberg[26]检验了以信息发送者为导向的研究模型,同时实证分析了情绪、负向网络口碑的影响因素,最终研究表明负向网络口碑的传播直接受到信息发送者的消极情绪和积极情绪的影响同时负向网络口碑的传播又可以预测出信息发送者的倾向行为;Pauwels、Aksehirli和Lackman[27]经过研究量化了一个关于服装零售商的营销、电子口碑(eWOM)内容、搜索、线上线下店铺交易之间动态交互作用;Wang、Yeh和Chen等[28]使用社会资本理论和自我决定理论去识别出关于电子口碑的三个社会资本因素与两个个人因素,通过对238名社交网络用户开展调查分析,最终研究显示:这五个因素的理论与实践应用都将会促进口碑传播;Tang、Mehl和Eastlick等[29]基于68家银行关于电子口碑与年度财务数据相匹配的8年数据资料分析了电子口碑与银行的盈利指标之间的关系,研究发现银行星评级和消费者在电子口碑中所表达出的情感都可以显著地去预测出未来银行的盈利的增长情况;蔡淑琴、王伟和张伟等[30]从信息价值、社会资本、客户动机与消费情感这四个理论出发,建立了关于负向网络口碑传播过程中影响因子的模型,实证分析发现负向网络口碑的传播分散意愿分别和利他主义、不愉快、发泄以及信息价值这四个变量之间呈现出显著的正相关,而和愉快、帮助公司以及社会关系这三个变量之间呈现出显著地负相关;董颖、许正良和徐东溟[31]以消费者心理调节定向理论作为研究角度,通过应用调节定向匹配理论研究探索了顾客电子口碑推荐的运行机制并提出公司应该准确点位顾客,不断提高顾客向其他顾客推荐电子口碑的意愿程度;Kasabov研究了中国消费者动机、社交网站中电子口碑的使用和电子口碑是如何影响消费者行为的等内容[32]。传统口碑与网络口碑其实本质上是一样的,但是前者一般是通过口口相传的途径进行传播而由于后者主要是借助互联网信息技术进行传播,因此网络口碑的传播途径就拓宽了。网络口碑不仅可以经过手机进行传播,而且还可以通过购物网站、网络论坛、E-mail、微博、微信、第三方评论网站或者各种网络虚拟社区等方式去传播口碑,传递消费者自身对于某种产品、服务等的感受。2.1.3在线评论网络口碑有许多种各式各样的具体表现形式,而其中最主要一种常见形式——在线评论无论是实践界还是学术界均受到了广泛关注。在线评论(OnlineReviews)这一概念最早是由Chatterjee[33]在2001年研究负向评论如何影响零售商评价与赞助商行为倾向时提出的[34],同时也把在线评论引入到了营销研究领域中来[35]。9 在线评论又可以被称作在线点评、在线消费者评论(OnlineConsumerReviews,OCRs)、在线反馈、用户生成内容(UserGeneratedContent,UGC)等等。Chatterjee(2001)认为在线评论(OnlineReviews)是指顾客与顾客之间利用联系软件或者网络平台等渠道来传播和分享信息;Bickart与Schinder在运用实验法去研究具有消费者信息影响力的网络论坛时提出在线评论是在消费者可获得众多信息中的一种比较容易获得的口碑信息[36];Park和Kim通过研究认为在线评论是指无论是企业之前的顾客还是现在的顾客或者潜在的顾客将其对公司品牌、产品、服务等正向或者负向的评价,并且这些评价信息借助于互联网技术进而传递给其他消费者[37];尹英姿认为在线评论指在电子商务网站、论坛、虚拟社区等中消费者所发表的个人关于企业产品或者服务的使用状况、感受的评论内容[38];岳中刚和王晓亚研究认为作为网络口碑之一的在线评论(OnlineReviews)是最常见的表现形式之一,同时指出在线评论是潜在的、之前的或者现在的顾客借助于公司网站或者其他网络平台发布的与产品或者服务有关的评论[39];潘明暘通过综合比较分析了传统口碑与在线评论的定义,认为在线评论是指在网站中消费者运用打分或者文字形式对公司的产品、服务以及公司产品的使用体验等所做的点评信息,其中这些点评信息包括有关专家对于产品的检验评价、顾客在使用产品或者服务过程中的自身体验等,但是信息应以打分或者文字的形式呈现在网站中[40];张紫琼使用语言学、文本信息分类、自然语言处理以及经济管理等学科的理论与研究方法研究了中文在线评论的情感分类问题,同时在研究过程中提出了在线评论是指顾客用打分或者文字的形式对某公司的产品性能、质量、价格、以及用后感受等所进行评论的内容[41]。目前消费者的在线评论根据其定义主要可以分为如下几类[42]:(1)按照在线评论发布主体的差异原则,在线评论可以被细分为消费者评论、商家评论以及专家评论。消费者评论主要是广大消费者根据其亲身消费体验或者是借鉴参考其他消费者的消费体验而在网络上发表的有关产品或者服务等的评价信息。商家评论指生产者或者经销商在互联网上有选择发布有关某公司产品的介绍或者宣传等的信息披露。专家评论通常情况下是产品尚未上市以前或者是产品上市前期阶段在第三方专业评论网站中发布的更多与产品属性有关的评论信息。(2)按照在线评论发布网站地点的差异原则,在线评论可以细分为第三方评论网站在线评论、电子商务网站在线评论等。(3)按照在线评论评论情感的差别原则,在线评论可以细分为负向在线评论与正向在线评论。(4)按照评论主客观性的差异原则,在线评论可以细分为客观在线评论与主观在线评论。2.1.4国内外研究现状经过阅读并梳理国内外关于在线评论的现有研究,发现目前已有研究主要是以与在线评论密切联系的三个不同主体分别作为研究出点进而开展研究的,这三个主体分10 别为进行产品在线评论撰写的消费者、接收在线评论信息的有关潜在消费者以及网络上的产品零售商。于是,按照研究主体不同原则可以将目前关于在线评论的研究现状总结概括为3个主要方面,分别为:消费者参与在线评论动机研究、在线评论对潜在消费者的影响研究以及在线评论对产品销量的影响研究。(1)消费者参与在线评论动机研究。付东普和王刊良为了研究经济回报是如何影响消费者撰写在线评论行为,运用社会关系有关理论并且通过方差分析、回归分析等分析方法对所搜集到的数据进行了详细分析,最终发现如果消费者经过评论能够收到卖家一些经济回报,那么消费者在评价产品时往往倾向于给出较高评分[43]。Jen-Ruei、Pei-Hung和Chiung-Wen基于公平理论、计划行为理论以及社会心理学视角,旨在研究消费者参与网络口碑的动机,经过研究发现消费者在发布积极咋先评论、消极在线评论时所受到的驱动影响因素是不同,具体表现为消费者发布积极评论时更多受到潜在态度因素的影响而消费者发布消极评论时受到更多的是社会压力影响[44]。陈新华为了探索哪些因素会影响旅游消费者参与在线评论动机,运用偏最小二乘法的结构方程模型进行了问卷调查研究,经过数据分析发现互惠、利他主义、自我效能、情感表达等将会正向显著影响消费者参与在线评论行为而发布在线评论的成本将会负向显著影响消费者参与在线评论行为[45]。郭恺强、王洪伟和赵月运用TAM模型对在线声誉系统如何影响消费者撰写在线评论进行了研究同时基于结构方程模型对关于积极评论、消极评论的理论模型进行了检验,研究表明消费者对在线声誉系统的感知有用性是影响其发布积极评论的第一要素而顾客对于消费体验的不满意程度是影响其发布消极评论的第一要素[46]。Yap、Soetarto和Sweeney研究了特定动机与在线评论不同特征之间是如何联系的问题,研究对象为最近一年内曾发布过关于金融服务的在线评论信息的201位消费者,研究结果表明在线评论信息认知性与情感性特征与消费者参与在线评论动机之间是紧密联系的[47]。Hennig‐ThurauT、Gwinner和Walsh等为了研究消费者在网络上发表在线评论的动机,通过对2000左右网络消费者进行调查研究发现对于社会交往的渴望、对于经济激励的渴望、其他消费者的关注以及提升自我价值的可能性均是导致在线评论内容产生的主要原因[48]。(2)在线评论对潜在消费者的影响研究。SparksBA、SoKKF和BradleyGL研究了面对负向评论的酒店反应情况如何影响潜在顾客的信任,研究发现潜在顾客被一个公司吸引程度取决于这个公司的诚信以及公司对于其消费者的关心程度[49]。Salehan和Kim使用大数据分析中的情感挖掘方法研究了读者与在线评论关系,研究表明具有较高积极情感水平的评论标题将会吸引更多读者同时具有中性情感的评论也被认为是非常有用的[50]。Filieri基于双重加工理论对信息的规范性预测诊断及其与消费者信息采用之间关系进行了调查研究,结果表明消费者主要受到信息质量影响,其次受到消费者等级以及总排名的影响[51]。Baber、Thurasamy和Malik等运用启发-11 系统式模型与态度形成理论对在线评论对顾客购买行为影响展开了深入探讨分析,从评论发布者可信度、发布者专业知识程度、发布者经历、口碑使用、态度以及购买意图六个方面对251位互联网用户进行了数据收集,经过验证性因子分析和结构方程模型分析发现消费者态度在具有值得信赖和可靠性来信息来源的在线评论与消费者购买行为之间充当中介变量[52]。See-To、Ho基于信任与价值共创方面理论对社交网络中在线评论如何影响顾客消费意图展开了研究,结果表明在线评论将会直接影响顾客消费意图同时在线评论对价值共创产生影响而价值共创又将会对顾客购买意图产生影响[53]。Zhang、Zhao和Cheung等借鉴启发-系统式模型,从双重加工理论角度出发建立了一个研究模型用来识别消费者购买决策的重要影响因素,经过现有评论网站的191位用户进行模型检验,发现评论信息可靠性和评论信息质量(启发式因素)对顾客购买决定产生直接影响并且这两个启发式因素对论证强度产生正面影响[54]。杜学美、丁璟妤和谢志鸿等研究了接受者专业能力在在线评论对顾客消费决定影响中所起的调节作用并建立了相应概念模型,通过实证分析方法检验了研究假设并修正了概念模型,研究表明在线评论的质量、数量等功能价值类因素对顾客购买意愿产生正向影响同时接受者专业能力能够调节在线评论数量与质量对顾客消费意图的影响[55]。江晓东运用不确定性降低理论并在可达性-可诊断性模型基础之上研究了在线评论数量、产品类型、在线评论文本内容特征等怎样影响顾客在线评论感知有用性的课题,学术结论显示消费者对于搜索型产品的感知有用性程度要比体验型产品程度高同时产品种别能够调节在线评论客观性对于消费者评论感知有用性影响强弱[56]。钟帅、王立磊和章启宇以可靠性与有用性两方面作为研究出发点运用实验法对消费者在线评论感知如何影响网站品牌忠诚问题以及产品涉入度是否对两者间关系起到调节作用问题进行了深入研究,结论显示顾客关于在线评论的可靠性及有用性感知都有利于网站品牌忠诚度的提高,而且产品涉入度从正面角度调节着顾客关于在线点评有用性感知对网站品牌忠诚产生的影响作用[57]。(3)在线评论对产品销量的影响研究。Hu、Koh和Reddy收集了大量来自亚马逊的面板数据并建立了多个方程模型去研究评级、情绪与销量三者之间的关系,结果发现评级对产品销量未产生直接影响而是间接通过情绪来对销量产生重大影响[58]。Chevalier和Mayzlin研究了亚马逊以及Barnes&Noble两大网络书店中顾客的在线评论对于相关图书销量的影响情况,研究发现在线评论的提升就将会引起对应图书销量的增加同时在两大图书网站中的在线评论大部分属于积极评论,但是亚马逊拥有更多积极评论与较长在线评论[59]。杨扬基于在线评论评分、数目与星级评论三个视角,研究了在线评论如何影响影戏票房收入,运用格瓦拉网588个样本构成的面板数据开展了实证研究,结论表明在线评论将会显著影响影戏票房收入,因此其建议电影销售商在网络进行电影票销售时需要创建完善的在线点评机制同时采取一些激励措施鼓励12 消费者积极参与撰写在线点评[60]。王君捃、闫强以搜索型商品为研究对象研究了在线点评星级、点评实时性、点评长度以及商品价格是如何影响不同热度搜索型商品销量的并且研究了与热门品牌商品相关的在线评论能否影响到冷门品牌商品销量,经过相关分析和回归分析等实证研究方法对来自京东网站的有关手机销量数据做了相关分析研究,最终对研究假设进行了检验[61]。郭功星以电热水壶为研究对象构建了研究所用的计量模型,研究了电热水壶销量与相应淘宝网店购物界面涉及到的销量以外各种信息,经过实证研究,结果显示电热水壶对应在线评论的好评数量多少以及总共进行评分的次数将会显著正向影响顾客购买意愿进而影响到电热水壶的销量[62]。李健对在线点评时实时性、点评质量等因子如何影响产品的销售量做了实证研究,结果表明在线评论时效性强弱以及顾客感知有用率大小均显著影响在线手机销售量同时消费者对于产品的关注度与在线评论的总数量也显著影响手机的销售量[63]。依照对相关文献开展的梳理总结可知,截止到现在关于在线评论的研究主要聚焦于在线评论对潜在顾客的影响、对商品销量的影响以及参与在线评论动机等方面,在研究过程中主要是从在线评论的数量、长度等表面特征,甚至是整体上考虑,缺乏对评论具体文本信息深入挖掘,探索发现消费者在线点评背后所隐含的潜在知识。2.2消费体验2.2.1消费体验内涵体验一词是从拉丁文中发展出来的,其主要指体验或者探查的意思。1970年Tomer在《未来的冲击》书里面最早提出了体验含义并且提出体验为与服务与产品相关的消费者心理化产物[64]。而消费体验的概念首先是在1941年由Norris研究提出的,认为与产品相比较顾客消费体验更多注重的是产品服务。Schmitt借鉴前人研究成果并提出顾客消费体验主要是指面对某些刺激,消费者个体所做反应,是由某些消费者情景经验所触发出的一种感觉或者灵感[65]。2.2.2消费体验维度目前,经过阅读消费体验的相关文献、理论,经过梳理发现消费体验维度主要存在以下几个应用比较广泛并且具有较大影响力的分类形式:(1)Csikszentinihal心流体验Csikszentinihal认为心流体验是指消费者历经一种活动情景时所体会出来的感觉。在消费者出现心流体验的时候消费者非常着迷于现在正做的事情并且内心充满快乐,这时消费者也会感受到时光飞逝[66]。同时Csikszentinihal按照技巧与挑战因素对于心流体验进行了细分,见图2.1。13 图2.1基于技巧与挑战因素的心流体验划分图(2)Pine和Gilmore的消费体验四分理论在1998年Pine和Gilmore经过研究提出了著名的消费体验四分理论,即:按照“消费者环境体验程度”与“消费者参与程度”两个方面原则,把消费体验细分为四个部分,分别为娱乐体验(Entertainment)、教育体验(Education)、审美体验(Estheticism)以及逃避现实体验(Escape),如图2.2所示。消费者环境体验程度主要指由吸引到沉浸的过程,而消费者参与程度主要是指消费者由被动参与到主动参与的过程。在图2.2中,纵轴反映的是顾客环境体验程度,其中纵轴顶端反映的是吸引状态,纵轴底部反映的是沉浸状态;横轴反映的是消费者参与程度的高低,其中横轴一端反映的是消费者参与程度比较高的状态,而横轴另一端反映的是消费者参与程度比较低的状态。14 图2.2Pine和Gilmore消费体验四分理论(3)Holbrook的4Es理论Holbrook[67]对关于消费体验的现有学术研究成果做了归纳概括并提出了4Es理论,即:将消费体验视作由4个消费体验维度构成的,这4个维度分别为体验(Experience)、娱乐(Entertainment)、表现欲(Exhibitionism)以及传递愉快(Evangelizing)。Holbrook的4Es理论一共含有4个消费体验维度以及12种不同消费体验类型,如下表2.1所示。表2.1消费体验的4Es理论表体验娱乐表现欲传递愉快ExperienceEntertainmentExhibitionismEvangelizing情感兴奋表达证明EmotionsExcitementExpressEvince享乐出神入化暴露背书EnjoymentEcstasyExposeEndorse逃避现实美学热忱教育EscapismEstheticsEnthuseEducate(4)Schmitt的战略体验模块SEMs基于心理学中的模块含义,Schmitt于1999年认为可以把消费体验细分成5种类型,即:感官体验(Sense)、情感体验(Feel)、思考体验(Think)、行动体验(Act)以及关联体验(Relate)。这种消费体验的划分方式被称作Schmitt的战略体验模块,15 可以简称为SEMs,如图2.3所示。战略体验模块中的消费体验又可以归为两个类型,其中一类包含感官体验、情感体验、思考体验,这类反映的是消费者自身体验,即在心理与生理上消费者独自享受的体验;第二类包括行动体验、关联体验,反映的是共享体验,即只有当相关群体共同互动时才能触发的体验感受。图2.3战略体验模块SEMs在SEMs中,感官体验是指刺激消费者各类感官,如:听觉、味觉、视觉等而形成的开心、标致等知觉体验;情感体验是指消费者受到一定的刺激源刺激所产生的积极情绪、消极情绪与强烈情感;思考体验是指经过制造新鲜与惊喜而引起顾客好奇心从而形成的认知体验;行为体验是指消费者能够经过生活形态、行为模式以及互动关系而形成的一种消费体验;关联体验是指为消费者营造社会氛围、制造社会归属,从而其构建出具有特色的社会识别[68]。2.2.3国内外研究现状通过搜集和阅读消费体验相关文献并做了归纳汇总发现,目前海内外对于消费体验的研究,按照研究主题主要可以分为以下几大类:(1)体验型与功能型消费的区分。Holvrook和Hirschman最早开始研究消费体验划分并且认为体验型消费将会得到学术界的重视而且与传统形式下的功能型消费相比较其重要性将越来越强[69]。Wiksrom以普通消费作为研究出发点,研究发现能够采用潜在的消费者心理刺激动机和产品功能相结合的方式去评价顾客的消费形式[70]。赵放在研究体验消费和低碳消费差异时,按照关于产品功能价值消费者所选结果的差异性原则把消费细分为了体验型消费和传统型消费[71]。(2)消费体验维度划分。除了前面提到的4种消费体验划分方法外,其他学者也进行了广泛研究。张恩碧在对体验与消费体验进行研究时,认为新奇刺激性属于消16 费者所参与体验消费的根本属性同时提出体验消费可以划分为尝鲜型、尝新型、感受型、尝试型以及新奇型五种类型[72]。权利霞在研究体验消费和“享用”消费的时候,根据社会主流价值差异原则将体验消费划分为消极体验消费与积极体验消费[73]。在前人对于消费体验维度研究基础上张红明基于心理结构视角将消费体验划分为了情感体验、精神体验、感官体验、心灵体验、成就体验等[74]。(3)消费体验管理理论。ArnouldEricJ在总结消费文化过程中认为消费体验能够逐步分为消费前体验、购买体验、核心消费体验、消费体验思念与回味四个阶段[75]。郭红丽基于消费者生命周期理论,结合吸引消费者、发展消费者与保留消费者三个阶段构建出了独特消费者体验管理模型,同时根据这一模型改造企业能够很好识别消费者需求并且能够考虑到创造与完善消费体验的实际要求[76]。(4)消费体验执行工具。汪涛与崔国华梳理概括了经济时代与市场营销模式演变规律,同时对于消费者体验管理问题做了深入分析并认为体验、时间、浸入、情景、印象与事件五要素共同构成了消费体验营销组合(5Es模型),在这五个要素之中最基本要素为体验要素[77]。王竹论述了体验与体验营销的内涵同时建立了体验营销组合理论模型并将该模型视作消费体验执行工具,其中人员、定价、体验、促销、氛围与渠道六要素构成了体验营销组合[78]。除了上述关于消费体验的基础理论方面研究以外,国内外学者还进行了大量关于消费体验的实证研究,如:杨建华通过将珠三角购物中心作为研究对象研究了体验价值、消费体验以及零售商品牌资产三者关系,实证研究结果表明不仅共享型体验与消费者个人体验分别能够对消费者体验价值产生相应影响而且不同消费者体验价值维度也能够对有差别的产品零售商品牌资产维度产生不同影响[79]。崔健和朱小栋主要研究了哪些影响因子会影响消费体验度以及这些因子是否会影响到顾客的最终购买行为,使用线下调查问卷与线上调查问卷两种数据收集方法同时收集数据,最终经过实证研究发现:相比其它影响因素,个性化程度将会对消费体验度造成更大影响[80]。McLeanG与WilsonA研究了在电子商务网站中消费者搜集信息和服务时是否需要在线客户支持,经过研究发现消费者在进行功利性搜集信息时对于时间十分敏感同时消费者时间消费长度感知会影响顾客的消费体验[81]。经过对消费体验海内外外相关文献梳理、归纳概括,能够发现:目前学者对于消费体验的类型划分存在一些争议,尚未达成一致意见,同时缺乏对国内旅游行业产品消费体验属性的研究;对于消费体验的研究多是基于问卷调查的方式进行数据搜集,而鲜有根据消费体验相关文本内容进行深入挖掘的研究。17 2.3知识发现知识发现(KnowledgeDiscoveryinDatabase,KDD)一词最早是在20世纪80年代第一届KDD国际学术会议上由美国计算机学者进行学术报告时所提出的。KDD的概念可以区分为狭义概念和广义概念,其中狭义概念是由Fayyad等研究提出的,认为知识发现是对计算机数据集合中的大量数据开展判断分析从而得出具有潜在的、有用的、可理解的等特点的数据,然后并对这部分数据做更进一步地处理;而广义概念认为知识发现是指在计算机领域中所出现的全部新技术同时其过程中往往不需要对数据集合中的数据进行判断分析等操作[82]。从大量数据资料中挖掘并发现潜在知识是知识发现的根本目标。在大数据时代背景下,从网络信息资源中开展知识发现的过程是:首先需要对网络信息进行标记,其次是采集相关源的数据,然后对已收集到的数据进行整合,接下来对整合数据集合进行数据发掘,最后需要对数据发掘的知识结果做进一步地解释评估,如下图2.4所示[83]。图2.4网络信息资源的知识发现过程2.4技术基础2.4.1文本分词2.4.1.1文本分词的定义文本分词是指将原始文本数据切分成零丁的一个个词语的过程,即:将连续的字符串切分成根据一定规则组织成的词条串的过程。文本分词是整个文本挖掘研究中处18 于基础地位,是进行以后文本表示、特征选择、聚类分析的前提条件。同时文本分词质量的好坏就决定了后面研究成果的好坏。在文本分词中,由于中英文的语法结构、书写习惯等存在差异,所以对于中文与英文的处理是不一样的。在英文中往往采用空格的方式将两个单词隔离开来,这也就形成了清晰的分隔界限,所以说对英文文本开展文本分词处理相对简单一些,而中文文本往往是字与字之间没有分隔符,直接连接在一起,即:句子便是由许多前后连续排列的字组成的,这种文本结构无形中提高了中文分词的难度系数。总之中文的分词处理要比英文的分词相对来说更加复杂、困难。中文分词中遇到的最大困难是如何对分词过程中出现的大量具有歧义的分词问题进行解决,如:针对“韩导游人非常好”这条评论,可供参考的切分方法有两种分别为“韩/导游/人/非常好”和“韩导游/人/非常好”。这两种切分方法中仅有一种是正确的切分方法,但是由于计算机缺乏对于语言的深度理解,所以其是无法辨别出哪种切分方法是正确。因此,对文本数据进行准确的切分对于文本挖掘至关重要。2.4.1.2分词算法及分词工具迄今为止,经过归纳概括文本分词的算法主要包含三类[84],分别为:第一类是基于字符串匹配的文本分词法(或者叫作机械分词法);第二类是基于知识理解的文本分词法;第三类是基于词频度统计的文本分词方法。第一类机械分词法,又被称作基于字符串匹配的文本分词法,其应用思路是指依据一定策略规则从待分词语句中切取出子字符串并将其与已构建好的词典中存在的词条进行对比,假如该子字符串与词典中的某个词条正好吻合,那么便匹配告成,即成功切取出一个词语;如果在字典中无法找到与子字符串相匹配的词条,那么便匹配失败,该字符串不是词语,只能作为单独的字存在。基于字符串匹配的文本分词法根据扫描最初文本字符串的方向顺序差别原则又可以分成正向匹配法和逆向匹配法;根据在扫描过程中优先匹配的文本字符串长度差别原则又可以分成最大匹配法和最小匹配法;根据在分词过程中能否与词性标注协调共同使用的原则,机械分词法又可分为单纯分词方法和标注与分词相结合的一体化方法。目前,学者们常用的机械类分词法主要有以下几种:(1)正向最大匹配法(MaximumMatchingMethod,MM),其是指在扫描原始字符串的过程中按照从左向右顺序进行扫描并与预先建立好的词典中词条进行比较匹配的一种方法。(2)逆向最大匹配法(ReverseMaximumMatchingMethodRMM),其是指在扫描原始字符串的过程中按照从右向左顺序进行扫描并于预先建立好的词典中词条进行匹配的一种方法。(3)最少切分法,指在分词过程中根据从每句话中能够切分出最少词的原则进19 行分词。比如:对于这句话“独立自主和平等互利的原则”,分词的时候既可以切分成“独立自主/和/平等互利/的/原则”,还可以切分成“独立自主/和平/等/互利/的/原则”。很明显,上述两种切分方式的切分结果分别含有5个词、6个词,按照最少切分原则,应该选择第一种分词结果。(4)双向最大匹配法(Bi-directionMatchingMethod,BM),指把逆向最大匹配法和正向最大匹配法这两种机械分词法结合起来,分别按照从右到左、由左至右这两个方向对原始字符串进行扫描并与预先建立好的词典中词条进行匹配、对比。机械分词方法运用起来比较简单方便而且相对来说容易实现分词操作,因此在实际研究过程中得到了广泛的使用。为了提高分词系统的分词准确率,无论是实践界还是学术界所涉及的文本分词系统大部分都是把机械分词法当作基本的分词算法同时再运用一些其它相关的技术方法或者是语言信息。第二类基于知识理解的文本分词法,其应用思想是将计算机根据某种规则使其能够逐渐学会怎么样去理解自然语言,进一步计算机就可以模拟将整段的自然语言切分成一个个词语序列的过程。基于知识理解的文本分词法能够实现在分词过程中对自然语言进行语义、句法分析并按照语义和句法分析来消除分词中呈现的歧义。该类分词方法系统一般含有3个部分,分别为:分词子系统、句法语义子系统以及总控系统。分词子系统与句法语义子系统能够在总控系统的调和下根据得到的相关词汇、句子等的句法和语义信息来对分词过程中的歧义情况开展消解处理,换句话说就是它实现了计算机像人一样去理解句子的过程。总控系统的主要负责分词子系统与句法句义子系统两者之间的协调工作。因为基于知识理解的文本分词法在分词过程中须要大量的语义信息与句法,以及汉语言知识具有较高的复杂性,很难把种种语义信息加工并整理成计算机能够识别的语言,所以现在该分词方法暂时仍然位于初步试验阶段。基于知识理解的文本分词法中有一种方法是联想-回溯法。联想-回溯法的基本思路是:首先组建由特征词库、规则库与实词词库构成的知识库;其次把需要分词的原始文本切分成许多子串,每一个子串不但可以是词而且也可以是词群;最后运用规则库和实词库再把词群细化成词。在分词过程中需要注意使用一些语法知识并且构建出联想机制与回溯机制。联想机制主要包括联想网络与联想推理,其中联想网络是指形容各个虚词的构造词语的能力,而联想推理则是根据有关的联想网络去判断被形容的虚词是否为独立词语。回溯机制的作用主要是解决分词过程中遇到的歧义情况。这种分词方法虽然某一水平上增加了文本分词的准确率,但是增加了分词算法的空间、时间上的复杂度。第三类基于词频度统计的文本分词方法,其应用思路为:因为词的形式构成往往比较稳定,通常包括一个或者是多个字。因此,假如单个或者几个字在上下文中紧挨着而且共现的次数比较多,则这几个字就越有可能组成一个词。由此可知,某种程度20 上字与字紧邻而且共现的次数或者概率可以折射出这些字组成词的几率。互信息指一个能够测量不一样的字符串之间关联性的统计量指标。字符串Y和Z的互信息计算公式如下:P(Y,Z)MI(Y,Z)=log(2.1)2P(Y)P(Z)在公式2.1中,P(Y)与P(Z)分别代表字符串Y、字符串Z呈现的概率,P(Y,Z)表示字符串Y和字符串Z同时呈现的概率。如果MI(Y,Z)值高于某一个阈值的时候,那么便认为字符串Y和字符串Z具有较大可能性组成一个词或者这两个字符串同时是某个词的一部分。这种方法虽然不需要词典便可以进行分词,但是其也存在一定的局限性,比如:经常计算出一些本身不是词但是共现程度又比较高的字组,如:“有的”、“们的”、“之一”、“的我”等等。此外单纯使用基于统计方式的分词结果的精度往往不高。2.4.2停用词过滤在上述的文本分词完成后便会变成原始文本相关的词汇集,其中会有一部分词出现频率比较高但是对于文本分析不具有太大实质性意义,例如:“地、如果、假如、在、的”等。这些词便被称作是停用词,其对文本分析结果准确性会产生较大影响,因此在文本挖掘过程中应该进行停用词的过滤。停用词的过滤不仅能够提高文本表示的准确性而且还可以降低特征词集合中的特征词维度。现在对于停用词的过滤存在2种方式:一种方式是预先建立一张包含所有停用词的表格。这种方法运行过程非常简单,主要思路是检查每个词条是否在预先建立好的停用词表内,假如在里面,则将该词条删除。第二种方法是基于统计的方法。基本思路是:统计每个词条在原始文本集出现的频数,假如高于预先设定总数量的一个百分比,则将这个词条认为是停用词。2.4.3特征词选择经过文本分词、停用词过滤后,所得到的特征词集合中的词语数量还是比较多的,需要进一步的对特征词进行筛选,降低其维度。特征词的选择是指根据某一规则在原始特征词集合中抽取出一部分词当作文本的特征词的过程。现在关于特征词选择的方式有很多,但是经常用的选择方式一般有:特征词频(TermFrequency)、文档频度(DocumentFrequency)、χ2统计、互信息(MultiInformation)、信息增益(InformationGain)、期望交叉熵(ExpectedCrossEntropy)等。(1)特征词频(TF,TermFrequency),是某个词条在文本文档中呈现出来的总频数。特征词频运用的前提假设为“在文本文档中呈现频数比较小的词对过滤产生的影响也是很低的”。这种特征词选择方法其实就是为了减少特征词集合中词的数量,21 首先设定一个阈值,然后把低于这个值得所有词条删掉。(2)文档频度(DocumentFrequency,DF),指在文本文档里面包括某一特征词的文本个数。文档频率DF应用的前提假设为“当一个特征词的文档频度值小于预先假设的值的时候,那么认为这个词条是表达很少甚至是不能表达任何信息的较低频度的词汇。”在选择特征词过程中需要将这些低频词从特征词集合中删除,以便达到减少特征词数量的目的。相对来说,文档频率在众多选择特征词的方法中属于最简单的,而且计算量也是比较小的,同时该方法在使用过程取得的效果还是很不错的。(3)χ2统计(CHI)一般应用在统计学,该指标主要反映某个词条X与文本种类Y的相关程度。χ2统计值越大,则表示词条X与文本种类Y两者间的有关程度越高,而且两者间的独立性就更低。假设A1代表含有词条X而且包含于Y类文本的文本文档集合,A2代表含有词条X但不包含于Y类文本的文本文档集合,A3代表不含有词条X但包含于Y类文本的文本文档,A4代表不含有词条X而且不包含于Y类文本的文本文档,N代表文本文档的总个数,即:N=A1+A2+A3+A4。词条X与Y类文本的χ2统计计算公式如下所示:()2N×AA−AA2()1423χX,Y=(2.2)()A+A×()A+A×()A+A×()A+A13241234χ2统计的基本思路就是删除χ2值低于预先指定阈值的词条并将剩余词条作为特征词。此外,假如词条X与文本类别Y不相关的话,那么χ2(X,Y)的计算结果为零。(4)互信息(MultiInformation,MI),指特征词Y与文本类别Z同时出现的概率,该特征词选择方法的基本原理是首先计算出词条Y与文本种类Z的MI(Y,Z)值,然后把MI值比预先假设阈值要小的词条删掉,剩余的词条便当做特征词[85]。具体计算公式如公式2.3.1所示。根据公式可知,词条Y与文本种类Z不相关的话,所以MI(Y,Z)的计算结果为零。此外,MI(Y,Z)的计算结果越大,就说明词条Y与文本类别Z同时出现的概率就越高,同时也说明该词条可以表达更多Y类文本信息。(5)信息增益(InformationGain,IG),其主要思路为:计算某个词条在一个文本文档中呈现与不呈现的频数,通过该频数来反映出这一词条对于这个文本文档产生的信息增益。在信息增益中,某个词条的IG值越大,说明其能够表达的信息就越多,那么这个词条就越重要[86]。因而,当使用信息增益的方法甄选特征词时,往往选取具有较大IG值的词当做特征词。该方法IG值计算公式如下所示:mmIG()W=−P()ClogP()C+P()WP()()C|WlogPC|Wiiiii=1i=1(2.3)−m−−+PWPC|WlogPC|Wiii=122 在上述公式中,P(Ci)代表着Ci文本在所有文本文档集合中呈现的概率大小,P(W)代表着所有文本文档集合中含有词条W的文本呈现的概率大小,P(Ci|W)代表着文本−P(W)含有词条W并且该文本包含于Ci类文档时的条件概率,代表着所有文本文档−P(Ci|W)集合中不含有词条W的文本呈现的概率,代表着文本不含有词条W并且该文本包含于Ci类文档时的条件概率,m代表着文档的类别数目。(6)期望交叉熵(ExpectedCrossEntropy,ECE),又叫作KL距离。期望交叉熵与上面提到大信息增益存在差异之处,期望交叉熵仅需要计算出文本文档中呈现的词条。其计算公式如下所示:|C|P(C|W)CrossEntryTxt()W=P(W)P(C|W)logi(2.4)iP(C)i=1i在公式2.4中,每一个变量的内涵与信息增益中的公式2.3中变量表示的内涵是相同的。期望交叉熵的基本原理是假如某个词条与文本种类的有关性特别强(P(Ci|W)值比较大),与此同时相关的种类概率相对来说比较低,那么这个词条对于文本分类产生的影响就比较大,即词条的ExpectedCrossEntropy越大,对文本分类造成的干扰程度就越大。这类词条被挑选出当做特征词的概率就比较大。2.4.4文本表示在文本挖掘过程的文本信息往往是非结构化的信息资料,计算机是没有办法对其展开辨认与分析的,因此,需要基于数学模型,将非结构化的文本信息通过文本表达转化为数字化的信息数据。目前有许多文本表示的模型,但是经常使用的文本表示模型一般包含布尔模型、概率模型、向量空间模型。(1)布尔模型,其是根据特征词是不是属于当前的文本文档,把文本格式的数据转化为由多个维度构成的数字型数据,其中任意一个维度变量赋值均为0或是1,0反映的是这个特征词不包含于当前文本文件,而1反映的是这个特征词包含于当前文本文件[87]。文本表示公式如下所示:d=(w,w,...w)(2.5)ii1i2im在公式2.5中,m代表着特征词的数量,而wik取值为0或者1,wik代表着第k个特征词在文本文档di中呈现与否。如果出现,则wik=1;否则wik=0。(2)概率模型,该模型根据概率由大到小的排序准则将针对某类特征的全部文本文档的概率计算结果排序[88]。概率模型的计算式子是P(R|D,Q),在式子中R代表着文本文档D和Q类特征是相关的,而R′代表着文本文档D和Q类特征是无关的。(3)向量空间模型(VectorSpaceModel,VSM),该模型是由Salton等学者[89]23 在1973年创建的[90]。在向量空间模型中,每个向量其实都代表着一个文本文档,这些单独的向量汇总到一起便组成了向量空间VSM,所以向量空间VSM代表着整个文本文档集合。按照上面思路,就可以将文本信息数据资料转化为数字信息资料。VSM向量空间模型用于表达呈现文本文档dj的公式如下所示:V(d)=(t,w;t,w;...,t,w)(2.6)j1j1j2j2jnjnj在公式2.6中,tij(其中,i=1,2,...,n)代表着dj文档中第i个特征词,而wij代表着dj文本中第j个特征词对应的权重。2.4.5聚类分析在整个数据挖掘过程中,聚类分析是一种无监督的学习方法,基本思路是按照一定规则将一些数据划分成具有共同特征的簇或者组,即:把相近的数据汇总在一起并且将不同的数据汇总到不同的组中[91]。聚类分析在许多领域中得到了广泛的应用,如:教育领域、生物领域等。目前聚类分析存在着许多算法,一般能够细分成下面几类:层次法、分裂法、基于模型的方法、基于密度的方法等[92]。(1)层次法(HierarchicalMethods),主要指通过把数据按照层次进行分解,一直到满足了某条件才会停止。层次聚类法可细分成分裂层次法与凝聚层次法,其中凝聚层次法指根据从下往上的顺序,首先将一个数据当做独立的一个组,接着把相似的小组归并成一个新的较大组,最后直到所有的数据都被分到了同一个组中或者是某种条件得到了满足的时候终止;分裂层次法是指根据从上往下的顺序,刚开始时将所有数据都分到同一个组中,然后再把小组逐步分成愈来愈小的组,最后直到每个数据都单独作为一个独立小组或者是某种条件得到了满足的时候终止。比较典型的层次算法一般包含系统聚类、Cure、Birch等等。(2)分裂法(PartitioningMethods),主要是指根据分类法,对数据进行划分并分成若干个分组,这些分组中的每一个组都反映着一种聚类。同时这些分组必须满足两个条件:每条数据仅归属于一个分组;在各个分组中必须至少含有一条数据。具有代表性的分裂法主要有K-均值和K-中心。(3)基于模型的方法(Model-basedMethods),该方法的主要思路便是首先对于每一类聚类赋予一种假设,其次再从数据集中去查找可以较好适合这个假设模型的数据。目前比较常用的模型有神经网络的模型以及统计的模型。(4)基于密度的方法(Density-basedMethods),主要是以衡量各类之间的相似性为基础,将某个部分区域中的数据密度大于某个设定的阈值时,便将其进行聚类。24 2.5本章小结本章主要从两个角度进行了理论与技术基础概述的阐述,分别为理论基础和技术基础。一开始就介绍了在线评论的相关研究理论基础,含有口碑、网络口碑、在线评论以及海内外相关研究近况;其次,介绍了消费体验理论,主要含有消费体验内涵、消费体验维度以及海内外研究近况等内容;然后,又介绍了知识发现理论,包括知识发现提出时间、内容以及知识发现过程步骤等内容;剩下的几个小节,对本研究过程所涉及到的技术基础进行了阐述,包括文本分词、停用词过滤、特征词选择、文本表示、聚类分析等内容。通过对理论基础与技术基础的总结归纳,可以使研究的理论根源变得更加清晰,也可以使研究者对于接下来所用到的技术更加了解,从而为后面知识发现研究奠定了夯实的基础。25 26 第三章研究设计本章将介绍整个论文研究设计阶段,主要包括问题的提出、旅游网站选择、在线评论数据获取方法选择、在线评论范围界定等内容。3.1问题的提出90后逐渐步入适婚年龄,这代人富有个性,对于婚礼倾向于向西方学习,因此来自西方的蜜月游产品就受到了国内广泛消费者的青睐。与常规旅游比较,蜜月游更注重消费体验。婚礼对于每个人来说至关重要,因此消费者在选择蜜月游产品时会十分慎重,广泛搜集相关信息。而在线评论信息具有可靠性、易获得性等特点,进一步消费者在购买旅游产品时更多依赖于在线评论,因而在线评论对于蜜月游顾客做出购买决定极其重要。对国内旅游网站进行检索、浏览后发现现在旅游网站中的在线评论版块中大部分网站都采用了多个指标来综合衡量消费者整个旅游过程中的消费体验,如:携程网采用了“交通线路”、“住宿餐饮”、“导游讲解”这三个指标;途牛网采用的衡量指标为“导游服务”、“行程安排”、“餐饮住宿”以及“旅行交通”;同程旅行网设置了“同程服务”、“游玩景点”、“入住酒店”和“出行交通”评价指标;驴妈妈旅游网站采用了“景点”、“酒店”、“服务”、“交通”这四个指标来衡量消费者的消费体验。总之,目前旅游网站基本上都是设置3至5个评价指标,这些指标在实际运用过程中会存在一些问题,比如:在衡量消费者的消费体验时有的指标范围太广,缺乏细化,无法得到准确评价结果;有的指标评价体系不够全面,不能够从各个方面反映出消费者在旅游过程中比较关注的旅游产品的消费体验属性。此外,大数据时代背景下,在线评论信息量非常大,如何快速实现消费者关注信息检索是值得研究的。综上所述,本文试图经过对旅游网站中用户留下的生成内容进行挖掘、判别分析,发现其背后潜藏的关于消费体验的隐性知识是有意义的,其中隐性知识主要为消费者对于蜜月游消费体验属性的偏好以及相应消费群体分类。27 3.2旅游网站选择2015年发布的《2014年中国在线旅行预订市场研究报告》指出在网络上预定旅游产品的消费者搜索旅游度假产品相关信息的时候,主要应用的是携程网、去哪儿网和途牛网,这三个网站被使用频数所占总检索次数的比例分别为66.1%、50.8%、38.1%[93]。根据报告可知,消费者在进行旅游度假产品检索时主要使用携程网、去哪儿网与途牛网,从而这些网站中具有相对较多的在线评论数量同时在线评论浏览量也比较大,即:对旅游顾客购买决定能够产生较大影响。因此本研究将对携程网、去哪儿网和途牛网这三个具有代表性网站开展研究,深入挖掘蜜月旅游产品的相关评论,以达到发现消费体验相关知识的预期研究目的。3.3在线评论数据分析方法选择选择合适的数据分析方法有利于提高研究效率以及结果的准确性,本节主要介绍以下五种分析方法的选择过程:一、在线评论数据获取方法因为本文研究采用的数据来自旅游网站中消费者在线评论,评论数据布局格式比较统一,所以在线评论数据获取比较适合采用网络爬虫的方式。网络爬虫也叫作网络机器人、蜘蛛爬虫、网页追逐者等,英文名字为webspider。其可以在万维网中自动进行漫游并采集网络信息资源。经过简易定义待抓取网站网址、采集到的数据存放位置和自动抓取规则等内容,网络爬虫就能够迅捷地帮助人们抓取所需要的大批量网络资源。集搜客GooSeeker是众多网络爬虫工具中之一。本研究对于评论收集主要采取人工收集和集搜客GooSeeker网络爬虫两种文本采集方法。如果某一旅游产品的评论数量过少,则采用人工手动收集摘录;否则,则采用集搜客GooSeeker网络爬虫的方法,主要抓取会员名、出游类型、发布时间、评论内容这四项字段。经过这两种方法的有效结合,可以大大提高蜜月游产品在线评论的摘录效率。二、文本分词方法在本研究中,对于文本数据的分词处理,采用的是ROSTCM6工具。ROSTCM6是由武汉大学信息管理学院沈阳教授研发编码的一款可以对大量文本数据进行文本分析以及内容分析的免费软件。现在ROSTCM内容挖掘系统功能十分丰富,包括功能性分析、微博分析、字段抽取、期刊分析、网页数据抓取、聊天分析等。最近几年以来,在传播学、旅游、情报学和教育学等相关研究中ROSTCM6软件得到了广泛的运用[94]。显而易见,ROSTCM在学科研究领域占据着极其重要的位置,尤其在文28 本挖掘领域。同时该软件除了具有强大功能的特性外,还拥有操作简单快捷、易于学习掌握的特点。此外该软件工具还可以大批量的计算后期数据分析所需TF/IDF值。三、特征词初步选取方法经过对上章中介绍的6种主要特征词选择方法进行比较发现,在这些文本特征词选择方法中大部分属于有监督的选择方法,其需要预先构建一个训练文本集合,通过训练计算机软件进而使其能够自动根据一定规则返回出研究所需降维后的特征词集合。在本研究中最后需要对消费者进行聚类分析,探索出蜜月游消费者的具体分类,这一过程中运用到的是无监督的文本聚类。由于在最终使用的是无监督的文本聚类方法的情况下,所以在特征词提取时如果采用的是有监督的特征词选择算法,那么文本聚类将会受到一定程度上的制约。因此,应该使用一种无监督的文本特征词提取方式。特征词频与文档频度这两种方法都属于无监督的文本特征词选择方法。其中文档频度考虑到了在整个文本集合中所包罗每一个词的文档的个数。同时许多文本文件中都呈现的文本特征词被提取出来可能性比较大,即:如果一个词的文本文档频度越高,那么这个词就更有可能被提取当做特征词。与其他方法相比,文本文档这种特征词选择算法更加简便,而且在特征词提取时间和复杂度上拥有突出优势。YangY和PedersenJO学者通过在文本分类中特征词选择的相比研究发现:与信息增益等方法相比,文档频度的使用效果是相近的[95]。因此,本研究拟采用文档频度的算法。此外,本文研究共采集到了25414条评论,虽然经过预处理删减了很多,但是仍还有15000多条评论,对于这些评论进行分词后会得到大量的潜在特征词,大幅度增加了文档频度的计算量和复杂度,限制了文档频度的使用效果。然而根据特征词频算法,可以快速的减少特征词汇量,减低维度。综合思量,在本文的特征词选择算法中应用特征词频与文档频度相结合的方式即:首先用特征词频按词条在文档中出现的次数高低选出一部分频数较高的词条,然后再根据文档频度的方法进一步筛选词条并缩减特征词维度,最终实现特征词的抽取。四、文本表示方法通过对三种文本表示模型比较发现:在布尔模型中特征词的权重仅使用0或是1来表达,无法呈现出某个特征词对于文本文档的重要水平;概率模型对于文本文档集合具有较强的依赖性,同时估计概率模型中条件概率是非常困难的。向量空间模型考虑了特征词的权重问题,同时VSM模型计算具有很强的可操作性。综合考虑之后,本研究中采用向量空间模型作为文本表达呈现的模型。为了计算向量空间模型里面各个向量的权重,本文使用TF-IDF权重方法。TF-IDF(TermFrequency-InverseDocumentFrequency),其中TF指词频而IDF指逆文件频率。TF-IDF计算公式如下所示:29 tf×log(N/n+0.01)ijjW=(3.1)ijM2(tf×log(N/n+0.01))ijjj=1公式3.1中,Wij代表着文本文件集合里面第i个文本里面的第j个特征词的权重值,tfij代表着在第i个文本里面第j个特征词呈现的频率,M代表着第i个文本中所包含特征词的个数,N代表着总的文档个数,nj代表着在总文本文档集合中包含第j个特征词的文档个数。五、聚类分析方法本文使用SPSS对文本表示后的数据展开聚类分析,主要用到的聚类方法有二阶聚类法以及K-均值聚类。由于事先无法确定蜜月游消费群体适宜划分成几类,而二阶聚类分析可以对连续变量或离散变量进行聚类分析并自动确定出最适合的分类数目从而能够保证分类数目结果的准确性与客观性,因此首先采用二阶聚类法确定出蜜月游消费群体分类数目。然后再运用K-均值聚类方法按照前面得到的分类个数对数据集重新进行聚类,从而实现将消费者群体进一步细分。最后在聚类完成之后应用判别分析法检验K-均值聚类结果是否有效、合理。3.4在线评论范围界定主要从以下两个方面对准备抓取的蜜月游在线评论范围进行界定,以提高数据的有效性。(1)在线评论发表时间的界定。由于评论时间越接近现在的点评,更能有效反映出消费者对于蜜月游产品的消费体验,因此,本文仅摘录2015年3月至2016年4月之间的相关评论。(2)搜集到的在线评论必须与蜜月游产品相关。本文研究产品对象是蜜月游产品,然而某个旅游产品往往不是单纯针对蜜月游,还可以适合其他出游类型旅游,如:家庭亲子、朋友出游、独自出游等,评论中也会混杂着其他一些不相关的干扰评论。所以要使研究结果更可靠,就必须先保证数据摘取的准确性,即:所摘录评论必需是消费者撰写的关于蜜月游的在线评论。对于这两个在线评论范围,由于集搜客网络爬虫工具在数据抓取过程中无法实现针对性摘取有效在线评论,所以用此软件初步收集到的数据并不都介于2015年3月至2016年4月时间段之间,而且在线评论也不全部都与蜜月游产品紧密相关。针对这一问题,将在评论数据采集完成后统一对不符合时间段要求、与蜜月游产品不相关的评论数据进行删减。最后,删除了无效在线评论数据,提高了在线评论数据的有用30 性、准确性,保证了数据具有较强可靠性。3.5本章小结本章主要介绍了论文研究问题是如何提出的、蜜月游在线评论数据主要在哪些旅游网站中采集、在线评论数据分析方法选择以及从两个方面对有效在线评论进行了范围界定,通过研究设计为后面的数据搜集、处理分析等奠定了基础。31 32 第四章蜜月游在线评论数据收集与预处理通过前面章节的论述,确立了本研究的相关理论基础与技术基础,如:文本分词、停用词过滤、特征词选择、文本表示以及聚类分析等技术。在本章中将会结合研究设计内容,把相关理论、技术应用到所要研究的消费者生成内容中去,以发现相关消费体验知识。4.1在线评论数据收集经过对携程网、去哪儿网、途牛网中的蜜月游主题进行检索、浏览发现,在去哪儿网中蜜月类相关旅游产品的在线评论非常少,而且大部分是系统自动评论的,如:“用户未及时评价,该评价为系统默认好评!”。因此,本研究将搜集数据的目标旅游网站缩减为携程网、途牛网。此外,也发现在携程网上进行评论时有很多消费者没有标注自己的出游类型,所以对携程网进行评论摘取时,初步默认所有蜜月游相关产品的评论都符合研究要求,后期会采用通读方式删除与蜜月游不相关的评论,则摘录内容改为会员名、发布时间和在线评论这三项。本研究主要针对携程网和途牛网中蜜月旅游产品,鉴于在线评论在这两个网站中的摘录过程是一样的,因此本章节以携程网摘取相关评论数据的过程为例介绍研究中在线评论数据的采集过程。首先进入携程网的旅游版块,然后选择主题旅游中“蜜月游”,检索结果如图4.1所示。33 图4.1蜜月游检索结果由于人工摘取评论过程比较简单,在此就不在详细介绍,而重点介绍下集搜客GooSeeker抓取网页数据的过程及操作。就蜜月旅游产品中的任意一款产品来介绍下本研究评论抓取的过程。对于图4.2所示的这款旅游产品,总评论数为1426条,经过详细查看首尾页中每条评论的发布时间,发现存在一些不属于研究时间段的在线评论,对于这些评论将会在下节文本预处理中进行删减。由于评论数目相对较多,则采取集搜客GooSeeker工具进行评论文本抓取工作。图4.2蜜月游产品集搜客包括服务器与客户端这两个方面,其中服务器主要作用是存储评论抓取规则以及相应的抓取线索;客户端又可以分为MS谋数台和DS打数机。MS谋数台主要是用于编写网页评论文本抓取的规则,而DS打数机则是根据MS谋数台编写的规则来抓取网页存在的数据。集搜客的工作原理是:(1)运用MS谋数台编写数据抓取规则同时已撰写规则和待抓取网址都会保存在集搜客的服务器中;(2)DS打数机通过使用上步中MS谋数台建立好的规则在待抓取网址的网页中进行数据采集;(3)采集好的数据将会自动保存在本地文件夹DataScraperWorks中。总之,集搜客的数据采集的工作原理可以用图4.3进行表示。34 图4.3集搜客GooSeeker数据抓取工作原理对于图4.2中的这款产品,采用集搜客抓取评论数据。按照集搜客的工作原理进行操作,如下:(1)MS谋数台编码。通过MS谋数台构造了相应的采集数据的数据规则和线索规则并保存为“携程蜜月旅游评论数据抓取”的规则。MS谋数台工作界面如图:图4.4MS谋数台工作主界面A.数据规则。数据规则其实是规定了待抓取网址网页结构中需要采集的模块,即:本研究所需要获得得数据内容包括会员名、发布时间和在线评论。经过MS谋数台编写的数据规则如下:<列表>=1andcount(.//*[@class="user_id"]/text())>0andcount(./p[position()=2]/text())>0andcount(.//*[@class="detail_comment_tips"]/a[position()=1]/text())>0]"mode="列表"/>35 =1andcount(.//*[@class="user_id"]/text())>0andcount(./p[position()=2]/text())>0andcount(.//*[@class="detail_comment_tips"]/a[position()=1]/text())>0]"mode="列表"><会员名><在线评论><发布时间>B.线索规则。线索规则可以使集搜客GooSeeker在数据抓取中不仅仅采集本页相应信息而且也可以自动翻到下一页进行数据收集。本研究中使用记号线索方法,运用MS谋数台制作的线索规则如下:携程蜜月旅游评论数据抓取HTML36 a//*[@id="js_questionDataPage"]//a[.//text()=">"]inthread携程蜜月旅游评论数据抓取hostname+pathnameundefined(2)DS打数机采集数据。运用前面已制作好的数据抓取规则(数据规则和线索规则)对待抓取网址的网页评论进行采集,如图4.5所示。图4.5DS打数机采集数据(3)每页抓取的数据结果会分别存储为一个XML格式文件并保存在本地电脑中DataScraperWorks文件夹下面。由于在DS打数机抓取数据过程中将终点标志设置为“重复内容”,即同一数据内容连续重复三次,DS才会停止采集数据,因此最后一页评论数据连续重复了三次,在结果中应该删除最后两个XML文件即可。按照上述采集过程并结合人工摘录,对携程网和途牛网进行了蜜月游产品在线评论数据采集,最终初步得到了携程网蜜月游产品评论数1610条和途牛网蜜月旅游产品点评数23804条,合计25414条评论。37 4.2在线评论数据预处理在线评论预处理对于整个评论的检索处理过程来说至关重要。预处理是将上节收集到的25414条文本数据进行中文分词、去除停用词等工作,主要是为了将文本数据更好的转变为计算机能够处理的数学语言。4.2.1初步预处理消费者旅游结束后,在旅游网站上留下的用户生成内容(UGC)有时会存在繁体字点评、重复评论、与旅游体验无关的评论等现象,在后期处理中计算机软件是无法有效识别处理的,会增加文本分析处理的工作量和难度;同时在上节文本数据收集的过程中,由于集搜客GooSeeker无法设定抓取时间段,所以在25414条原始数据中存在着一些不符合时间段要求的评论。所以,文本分词开始前应该对原始数据开展初步预处理,如:删减不合时间要求评论、将繁体字转化为简体字、删除不相关点评等。首先,对于采集到的原始数据删减掉不符合2015年3月到2016年4月时间段的点评,即将2015年3月份之前的评论全部删去。运用excel表格中自带的筛选和排序功能,最终初步删减了3023条不符合要求的点评。同时本文研究针对的是蜜月游产品,但是在旅游网站中往往某个产品适合许多种旅游类型,因此在研究中有必要将不符合蜜月公司出游、独自出游、商务/会议、同学出游这些出游类型不属于蜜月游评论,应该删去;而家庭出游、代人预定、情侣/朋友、其他这类出游类型中含有大量的要研究的蜜月游评论,但是其中也存在一部分不符合要求的评论,因此还应进行全面阅读、筛减。一方面,删除朋友出游、公司出游等这些出游类型的评论,共计1469条。另一方面,通过阅读剩下的评论,将其中明显不属于蜜月游的在线评论评论删除,共计1542条,如:“以前去过一回,这次为父母定的,老爸老妈挺开心,小月湾美丽依旧”这条评论明显是父母去旅游而不是新婚夫妇去度蜜月,因此不属于针对蜜月游的点评,应该将其删去。其次,评论繁体转化为简体。生活中存在着一些消费者喜欢用繁体字进行交流,同样收集的数据也包括着一些繁体字形式的点评,如:“非常值得一去的旅遊,是粗遊的最佳選擇,行程緊湊,充實,非常值得一遊”、“這次出遊相當的滿意啊,沒有強制購物,行程安排的也很合理,很休閒,推薦啊”、“一次非常愉快的旅遊,行程安排合理,舒適不累。兩個導遊服務熱情,吃住都不錯,十分滿意”等等。文本挖掘工具无法精确的识别这类点评,因此需要将其进行简化处理。具体处理过程为:在excel中将数据全部选中,选择菜单栏中“审阅”下的“繁转简”选项,这样一来就可以把excel中的全部繁体字转化为了简体字,便于后面的文本分析。最后,删减无效评论、重复评论。对上述步骤之后剩余评论进行整体阅读,发现38 其中存在的无效评论并进行删减,如:“第二次,跟途牛报了,每次都很好,以后永远选途牛了”、“从去到回感觉都非常好,这趟蜜月之旅很高尽兴”等这类评论包含的特征项比较少而且对于评论文本研究起不到太多实质性的作用,同时无效评论会对文本挖掘过程产生干扰,影响特征项提取项提取和文本聚类的效果,因此遇到这类评论时进行删除操作。此外,在阅读收集到的蜜月游产品评论时,其中存在一条评论“时间安排比较充裕,景点不多,住宿四星,团餐也不错的!值得拥有”重复出现了好几次,可能是因为有部分游客为了减少评论时间而直接采取复制他人评论的方式进行评论,这些评论会增加文本分析的难度,因此应该将重复评论全部删除,仅留下唯一一条评论即可。在此过程中,共删除无效评论1631条、重复评论2684条。除了上述几个主要的处理过程外,还需要对初始数据进行一些细节性的修改,如:补全简称、去拼音化等。例如:在评论中有的消费者将导游写为“陈导”,虽然都是代表导游的意思,但是计算机软件却无法识别,需要将其改为“陈导游”;有的评论将“天气不错”写为“天气bu错”,这就需要将拼音转化为汉字;此外,某些评论具有相对复杂的格式,必须对这部分评论的格式再次开展重排。经过上述的删减不符合时间要求、无效、重复等评论,评论繁转简等初步预处理操作,得到了用于文本挖掘分析的初始数据,共计15065条蜜月游评论。4.2.2评论文本分词文本分词也被称作文本切词,是指按照一定的分词规则把文本切分成独立词条的过程,而且是文本特征项选择、文本聚类分析等的基本前提。所以,文本分词的好坏将对后续分析结果的优劣产生影响。本研究使用由武汉大学沈阳教授编码研发的ROSTCM6(内容挖掘系统)进行文本分词、词频统计等工作。因为ROSTCM6只支持TXT格式的数据,所以需要将包含初步预处理后的15065条评论的excel文件转化为TXT文件并命名为“蜜月游评论”。然后在ROSTCM6内容挖掘系统中运用“功能性分析”菜单下的“分词”功能对该文本文档进行分析,如下图4.6所示。在分词过程中使用的是ROST自带的自定义词表,通过分词将自动生成相关的“蜜月游评论_分词后”TXT格式的分词文件。39 图4.6ROSTCM6文本分词在分词结束后,阅读分词结果,了解到应用软件分词有时会呈现分词不准确的状况,如:“时间/安排/比较/充裕,景点/不多,住宿/四星,团/餐/也/不错/的!值得/拥有”这条评论整体分词效果不错,但是将“团餐”这个词拆分为了“团”、“餐”这两个独立汉字;“途/牛/的/服务/总体/来说/还是/不错/的,服务/态度/尤其/好”这条评论中途牛应该是作为途牛网的简称,但是分词软件将其拆分为了“途”、“牛”这两个单独的字;“导游/廖/香/萍/很/好”评论中“廖香萍”其实是一个导游的名字,但是ROST将其拆分成三个单独的字等等。像这种分词不准确的现象,会影响到后面研究结果的准确性,因此为了杜绝这种类似现象的再次发生,本研究在ROSTCM6分词完成后又采取人工方式对其分词结果进行了核查并及时将错误的分词结果进行更正,减少分词的误差,从而对文本分词结果具有较高正确度起到了保证作用,为特征词选择奠定夯实的基础。4.3蜜月游产品特征词的初步选择在分词结束后便得到了已分词的文本文档,本研究将通过以下几个方面从该文本文档中初步提取蜜月游产品的特征词:(1)运用词频和文档频数DF相结合的方法筛选特征词。词频,指某一个特征词在整个文本文档中呈现的总次数;文档频数(DocumentFrequency,DF)是指某个特征词在全部文档集合中所占文档个数[96]。如果一个特征词的DF值特别低,那么就会被认为是噪声,则将被删除。使用ROSTCM6中的词频分析功能对得到的分词成果开展词频统计。将分词后的文本文档导入到词频分析窗口中,然后启用该软件自带的过滤词表,勾选“不输出单字词”。由于在ROSTCM6中输出结果中词汇个数不是按照词频高低排列的,所40 以为了防止遗失重要词汇,通过增加特征词输出量来增加特征词覆盖全面性,则将默认输出300改为5000名词。词频分析的具体设置如图4.7所示。在得到输出结果后,再将其导入至excel中进行词频由高到低排序,选择前500词作为特征词集合。图4.7ROSTCM6词频分析mDF=对于文档频数DF的计算是运用excel计算按照公式n(其中,m代表某特征词所占文档个数,n代表总的文档个数)。每个词的DF值计算过程是一样的,在此仅以众多潜在特征词中的“导游”、“服务”、“团餐”为例,说明下计算过程。“导游”的DF计算过程为:首先,根据excel中的COUNTIF函数计算“导游”一词在整个文本集里面出现的文档个数,计算公式为“m=COUNTIF(E1:E15065,"*导游*")”,文档个数m=9137,n=15065,则“导游”的DF=m/n=9137/15065=0.606505。“服务”的DF计算过程为:首先,根据excel中的COUNTIF函数计算“服务”一词在整个文本集里面出现的文档个数,计算公式为“m=COUNTIF(E1:E15065,"*服务*")”,文档个数m=2766,n=15065,则“服务”的DF=m/n=2766/15065=0.183604。“团餐”的DF计算过程为:首先,根据excel中的COUNTIF函数计算“团餐”一词41 在整个文本集里面出现的文档个数,计算公式为“m=COUNTIF(E1:E15065,"*团餐*")”,文档个数m=1526,n=15065,则“团餐”的DF=m/n=1526/15065=0.101294。然后按照这种方法分别计算出其他潜在特征词的DF值。然后运用excel中AVERAGE函数计算出DF均值为0.013654并将此值作为阈值,将DF值小于0.013654的所有特征词从特征集合中删除,共删除413个词,剩余87个词。(2)筛选无用词汇。在上一步骤之后剩余特征词集合中仍然存在一些无用的词汇,需要进一步筛选。无用词汇主要包括两部分:停用词和专有名词(如:人名、地名、物品名字等)。停用词主要指那些出现频率比较高但是不具有实际意义的词,其包括副词、语气助词、连词和介词等等,比如:“如果”、“即使”、“虽然”、“的”、“居然”、“很”、“十分”、“通过”、“为了”等等。虽然在上一步骤的词频统计过程使用ROST自带的过滤词表,但是在87个词语中仍然残留着一些停用词,比如:“第一次”、“整个”、“整体”、“第二”、“唯一”、“最好”、“完全”等等,需要将这类词汇删除。在87个词语中也存在着一些专有名词,比如:“云南”、“途牛网”、“老公”、“公园”、“玉龙”、“旅游”、“旅途”、“旅行”、“度假”等等,需要删除。(3)筛选不相关词汇。本文研究对象是蜜月游,在潜在特征词中有一些词汇无法表达出旅游消费者对于蜜月游产品的感受,这类词语不适合保留为特征词,因此需要删除这部分与蜜月游消费体验不相关的词汇,比如:“问题”、“遇到”、“天气”等等。(4)合并同义词。在评论文本集合中,一些词之间具有相似的含义,需要将这些同义词进行合并,比如:“接机”与“接送”;“早餐”、“自助”与“团餐”、“舒服”与“舒适”等等。经过上述四个步骤之后,删除了大量潜在特征词,完成了对于特征词的初步选择和降维,共剩余30个词汇,如下表4.1所示。这些只是初步得到的特征词,还需要根据这些特征词把文本数据转化成数值型数据并通过spss因子分析来确定出最终的特征词项。表4.1初步特征词项导游安排服务住宿开心团餐强制值得自由消费司机轻松幽默舒服游泳方便交通接送耐心遗憾细心难忘团队性价比特色文化自愿详细充足难吃注:排列不区分先后顺序。42 4.4在线评论文本表示文本表示是指通过一定的文本转化模型将文本内容转化为计算机能够识别的数值型数据,其在文本聚类中起着至关重要的作用。在本研究中采用了VSM向量空间文本表示方法,同时在计算向量空间中评论向量权重时采用了TF-IDF权重,该权重值得计算主要采用的武汉大学虚拟团队编码研发的ROSTCM6软件工具进行计算。接下来将从以下两个方面来说明蜜月游产品在线评论的文本表示过程。4.4.1TF-IDF权重计算TF-IDF权重是由TF词频与IDF反文本频率这两部分组成的。其中TF词频主要是指某个特征词在某个文本文档中出现的频数,而IDF反文档频率主要表示的是含有某个特征词的文本数量在全部文本文档集合中所占比重的大小比较大,而在其他文本中呈现的频率比较低,那么就可以认为该词语对于整个文本文档集合来说具有较高的重要程度,尤其对于后期的聚类分析,也是十分重要的,所以该词语的权重值也应该是比较大的。本研究对于TF-IDF的计算采用前面分词过程应用到的由武汉大学沈教授编制研发的ROSTCM6,该软件具有“TF/IDF批量词频分析”功能,但是在使用过程中需要将前面收集到的15065条评论,逐条单独保存为一个txt格式文本文件。由于前面经过在线评论文本数据预处理、分词以及特征词的初步选择后剩余的评论是以整体形式保存在txt文件和excel文件中,因此首先需要进行评论数据的拆分以使每条评论以单独的形式保存。在拆分过程中采用excel中自带的宏进行相关的编码设置以达到快速进行拆分的目标,具体操作过程为:在含有分词结果的excel文件中,运用快捷键“ALT+F11”组合进入VBA主界面,插入模块,并在新插入模块中输入如下代码:Subtest()Dimi,totRAsIntegerOnErrorGoToLine1Application.ScreenUpdating=FalseApplication.DisplayAlerts=FalsetotR=Range("A65000").End(xlUp).RowCells.MergeCells=FalseFori=1TototRRows(i).CopyWorkbooks.AddActiveSheet.Paste43 ActiveWorkbook.SaveAsRange("A1")&".txt",xlUnicodeTextActiveWorkbook.CloseNextiLine1:Application.DisplayAlerts=TrueApplication.ScreenUpdating=TrueEndSub待代码输入完毕之后,直接运行即可,便可实现excel中每行评论自动被保存到一个个独立的txt文件中,进而简化了研究工作。ROSTCM6中“TF/IDF批量词频分析”功能主界面如图4.8所示。将独立保存的已分词在线评论txt文件全部导入进来,选中全部文件后首先运用“计算批量文件IDF”功能计算出所选在线评论文件的IDF值,然后在已计算完IDF值得文件中选择某个txt文本文件并使用“计算当前所选文件TFIDF值”功能,便可以快速的计算这个评论中所有词的TF-IDF权重值,不断重复第二步操作并选中不同txt文件就能够完成所有评论文件中每个词对应的TF-IDF权重的计算,如:在图4.8中,通过上述过程计算出了第一条评论中所有词的TF-IDF值,按照TF-IDF值计算结果,逐个找出30个初选特征词分别对应的TF-IDF值。经过对比发现,TF-IDF结果中仅出现了“导游”、“安排”这两个词,则TF-IDF(导游)=1、TF-IDF(安排)=1而将其他未在此次计算结果中出现的初选特征词的TF-IDF值设为0。44 图4.8TF/IDF批量词频分析主界面4.4.2VSM向量空间构建VSM向量空间是在表示文本内容过程中所用到的一种文本表示模型,并且其是一种以统计为基础的模型。VSM模型里面,文本转化的属性便是指特征项,同时每个文本内容是由一个多维度的向量来表示而文本文档集合往往是由众多单个多维度向量共同构建的VSM向量空间来表示的[97]。向量空间模型的构建主要是计算出所有文本表达属性的权重值,在本研究中文本表示的属性是指在蜜月游产品特征词的初步选择中最终筛选出的30个初步特征词项,而这些初步特征词的在每个文本中对应权重值是根据TF-IDF权重经过计算得到的,按照上小节中TF-IDF的计算过程对15065个文本文档分别进行计算便可以得到15065个向量,其中每个向量维度是30并且每个维度的值便是TF-IDF权重值。经过TF-IDF权重值的计算与数据整理,耗时将近一个月最终构建出了一个15065*30的VSM向量空间。45 4.5本章小结本章首先阐述了集搜客GooSeeker网络爬虫软件的工作原理并采用相关技术收集携程网、途牛网两个旅游网站与蜜月游产品相关的在线评论;然后,对已搜集到的在线评论数据开展数据整理,如:将繁体字转化为简体字、对评论文本进行分词处理等;接着,对蜜月游产品特征词进行了初步筛选并得到了30个初步特征词;最后,根据前面得到的30个初步特征词对所有搜集到的在线评论数据进行了文本表示,主要包括TF-IDF权重计算、VSM向量空间构建等内容。总之,经过本章节蜜月游在线评论数据收集与预处理,得到了30个初步特征词并将所有在线评论数据表示为了一个15065*30的VSM向量空间,为下文消费体验知识的发现做好了前期数据准备与预处理工作。46 第五章蜜月游消费体验知识发现本章将对上章整理好的数据、文本表示结果等内容进行更深一层的数据分析,主要采用因子分析法、主成分分析法、聚类分析等统计分析方法进行研究,试图探索发现蜜月游在线评论隐含的相关消费体验知识。5.1基于因子分析法的蜜月游特征词提取蜜月游产品特征词的提取主要是应用SPSS统计分析软件里面的因子分析,从而降低蜜月游特征词的维度并提取出消费者所关注的蜜月游消费体验特征,也就是通过对在线评论开展研究挖掘并发现其背后隐藏的知识。因子分析的概念首先是ChalesSpearman统计学家在1904年为了降低变量维度而提出的[98]。因子分析的主要思想为经过分析多个变量构成的协方差矩阵或者相关性矩阵,将这些变量按照相关性强弱的原则划分成几个小组,并且这些小组往往具有小组内各个变量间相关性比较高而组间的相关性比较低的特点。5.1.1KMO和Bartlett效度检验因子分析的条件假设是变量之间应该是高度有关的。因子分析开始前应该先对搜集整理好的数据资料开展效度检验(Validity),效度主要反映的是一项测量结果的有效性或准确性,通过应用KMO值与Bartlett球形度来检验这两个指标,检验结果来衡量某数据是否适合进开展因子分析。KMO指标主要检验的是各个变量间的偏相关性以及相关性,其指标值一般大于0并且小于1,即:0