当前位置:无忧公文网 >范文大全 > 征文 > 基于用户评论信息的服装类商品评价机制研究

基于用户评论信息的服装类商品评价机制研究

时间:2022-05-15 17:50:04 浏览次数:

摘要:电子商务网站用户评论信息是生产商和销售商改进商品和服务的关键指标,也是未来购买相同产品客户的重要参考意见,具有重大的研究意义。本文针对服装类的网络商品提出了一种新的网络商品的评价机制,并对比当前购物商城评价方法与新评价方法的实验结果,从而证明了新机制更能够客观评价网络商品的优劣,更符合潜在用户对商品的认知需求。

关键词:电子商务;信息增益;绝对词频-倒排文档频率

中图分类号:F724.6 文献标志码:A

Study on the Evaluation Mechanism of Clothing Commodities Based on Online User Comments Information

Abstract: The user comments information on e-commerce website are key indicators to improve commodities and services for the producers and sellers, and they are an important reference to the same product buys for consumers. In this paper, new evaluation mechanism of network commodities for clothing commodity was put forward, and facts proved that the new method was more objective when evaluating the quality of online clothing commodities, compared with the current evaluation method.

Key words: e-commerce; information gain; term frequency-inverse document frequency

随着网络购物的盛行,网上对已购商品写评论的用户越来越多,网络商品的评论信息数也迅速增加。现在主流的网络购物网站采用的是好评与差评的简单统计来评价某商品。一般来说,潜在顾客很难花费大量的时间去认真阅读全部的评论,仅仅根据好评和差评的数量就购买商品,必然得到较偏颇的意见。同时,对商品制造商来说,好、差评数量并不直接给出商品销售具体环节的优缺点,对商品销售的提高意义不大,因此,从电子商务潜在购买用户和商品制造商的角度来说,都存在改进现行网络商品评价机制的需求。

《2012年中国网络购物市场研究报告》显示,2012年用户网上购买最多的商品类型是服装鞋帽,81.8%的用户最近半年在网上购买过服装鞋帽,服装类商品成为网上交易额最大的商品类别。基于此,本文对网络服装类商品的评价机制进行了针对性的研究。

1 现行的服装类商品评价机制

现行的服装类商品评价机制通过消费者在已购商品后给予好评/差评来界定商品的优劣。消费者为已购得商品给出一定范围的分数,电子商务平台利用分数计算好评和差评,最终统计出好评和差评的总数量,作为该商品的评价。这种打分评价机制优点是计算方式简单,系统能够很快统计出商品的好、差评数量,给潜在消费者以建议,但这种评价机制不对评论信息的内容进行语义和语法层面的分析,后续消费者无法通过好差评总数得知商品的具体优劣。

在此基础上,淘宝商城进一步提出了基于模板方式的评论信息处理,利用商品的某些属性特征词从评论信息中提取相关模板对商品进行了好差评论数量的细化统计。在服装类商品的评论信息分析中,淘宝商城为服装类商品评论信息构建了若干匹配模板,从而从评论信息中抽取有关的评论信息,将评论进一步细分为22种细类:整体感觉不错、款式很漂亮、性价比很高、很修身、面料很好等。这种评价机制将好评和差评分别细分为12类和10类,从更细化的方面给出了已购商品的好坏,比单纯用好差评数量来进行评价的机制更合理,但是,这种评价机制存在三大不足。

(1)该评价机制所制定的模板无法覆盖整个评论信息的空间。统计数量显示,目前淘宝商城的22种细分的类别提取模板仅能覆盖评论总数的40%,很多消费者给出的有用的意见信息,通过这种模板提取的方式是无法提取出来的。

(2)该分类体系细类划分得过于混乱,且分类等级并不科学。这种分类体系模板提取信息过于机械,必然导致很多有用评论信息无法分到这22个子类中,而被剔除出好差评统计的范围。

(3)该评价机制将一条评论信息作为一个评价基本单位进行计算,忽略了评论信息中可能既有好评又有差评的情况。根据我们的统计数据显示,现在的商品评论信息中35%的评论都包含好评信息和差评信息。这种评价机制则无法处理这类信息。

2 改进的服装类商品评价机制

对于现行评价机制的不足,本文提出了一种新的服装类商品评价机制,将网络商品的评论信息分成 3 层的类别体系。对每个子类通过机器学习提取类别特征词,在此基础上进行短文本分类计算,在类别领域范围内领用倾向性词语的极性判定评论信息中包含的商品具体好差评。

改进的服装类网络商品评价机制建立在对服装类商品的类别体系和倾向性判定词极性判定的基础上展开,对商品评价分为文本分类和极性判定两个阶段,需要利用到信息挖掘、文本分类和倾向性判定等计算语言学相关技术。同时,由于评论信息多数是短文本数据,短文本独特的语言特征导致了计算的困难,这些都是在形成新的网络商品评价机制中需要解决的问题。我们选取了 1 万余条服装类网络商品的评价信息,通过人工归纳的方法将服装类商品的评论划分为 3 层 8 个子类的类别体系,如图 1 所示。

在对网购客户评论信息这种短文本进行分析处理之前,先定义几个集合:CommentMessage{}存储单句信息,ComCateFeaOpin{}存储类别-特征-观点组合,Category{}存储类别,CateFeature{}存储类别的特征,Target{}存储服装类的评价对象,TarOpin{}存储评价对象-观点组合,Opin{}存储倾向性的词语及其极性,Neg{}存储否定词集合。系统的最终结果是提取ComCateFeaOpin{}中的组合作为评价的基础,形成针对 8 个子类的评价值。

2.1 预处理

客户评价信息首先需要针对字词、短语的抽取,为了对评论语料进行分析,需要首先对评论文本进行预处理。预处理包括分词、特征选择、权重计算、文本表示的处理过程。

分词是预处理的第一步。本文采用基于词表的正向最大匹配法对评论文本语料进行分词。分词完成后,利用信息增益(IG)的方法选择词语特征t1,t2,……,tn,从中分离出类别特征集合CateFeature{}、评价对象集合Target{}和倾向性特征集合Opin{}。根据短文本的特点和人工统计的数据,按总词数目的一半选择词语特征的具体数目。信息增益即不考虑任何特征时文档的熵和考虑该特征后文档的熵的差值,具体计算公式如下:

Gain(ti)

=Entropy(S)-Expected Entropy(Sti)={-∑M

ijiji

在此基础下,针对短文本具有自由发散的特点,将评论信息划分为更细的颗粒度单位进行处理,根据空格、逗号、分号、句号等标识将评论信息划分成单句,这样一个评论文档可表示为一组单句的集合s1,s2,……,sn 。对每一个单句si,表示为向量空间模型(VSM)中的一个向量:

式中,t代表特征词语,w代表特征词语的权重。为了解决短文本的数据过于稀疏的问题,我们采用词语概念网络对特征词语进行词语泛化处理,这样评论文档D可表示为s = s(t1,w1; t2,w2;……;tn,wn),并存入集合CommentMessage{}中。这种处理手段能够有效改善数据稀疏化的问题,提高整个分类系统的准确率。

2.2 分类处理

在对文档细化后,对单句的内容进行分类处理。由于短文本文档中某些特征出现频率虽然低但包含较多的分类贡献率,对分类器的设计采用朴素贝叶斯这种算法,利用特征词语和类别的联合概率来估计给定单句的类别概率。

2.3 推理缺省与评论特征识别

通过整理集合CommentMessage{}的评论语料发现,部分评论单句还存在只包含观点词而缺省评论对象的情况。这类评论语料由于句子结构不满足状态句或判断句的一般结构,无法通过传统的方法进行识别而被遗漏,若忽略这种情况可能丢失关键特征,进而造成查全率的降低,因此,需要通过推理缺省评论对象来提高特征抽取的完备性。对于评论对象缺省的情况,本文仍采用词语概念网络进行联想,推理出与其观点词相关联的评论对象。

若通过概念联想仍无法分析出对应的特征,则默认该评价对象为“其它类”。上述过程完成之后,将评价对象和观点的具体集合存入TarOpin{}中。

2.4 评价确定

评论信息的最终极性依靠倾向性词语的极性Opin{}和否定词语Neg{}来判定。由于评论信息具有口语化、短文本的特点,评论信息倾向性的表述简单,故我们对单句的评价极性的确定,采用联合概率的计算来实现,即通过计算Target{}、Opin{}和Neg{}的联合概率来判定评价单句的极性。

3 效果测试

本文采用淘宝网服装类商品的客户评论作为实验数据,从 1 万条评论数据中自动抽取500条评论(500条评论又拆分为2 145条评论单句)作为实验样本测试集。对于选取的样本数据,提前过滤掉“好评”这种由于买家没有按时付款而由系统自动生成的评论文本。另外,如果评论文本中包含网址类型的文本,自动将其判断为垃圾广告评论并删除。

3.1 评价指标

本文采用在文本处理研究领域普遍使用的性能评估指标:准确率P(precision)、查全率R(recall)和综合评价指标F值对实验结果进行评测。本文的研究问题可以归结为二值分类,评估一般使用二维表,如表 1 所示。 3.2 测试结果与分析

为了获得测试结果,笔者构建了一个测试平台系统。首先将测试集输入实验系统,得到商品的类别集,然后对极性进行判定得到结果。评价结果的准确率、覆盖率如表 2 所示。

从表 2 可知,新方法的平均准确率达到了92.2%,平均查全率达到了85%,平均覆盖率高达96.95%,远高于现行的淘宝商城40%的覆盖率,从评价信息的准确率和对评价信息的覆盖率来说,都远高于现行结果,证实了新方法的有效性。

覆盖率高的原因主要是因为该机制是通过词语结合概念泛化来进一步激活单句的评价计算,同时更加细化完备的服装类商品分类体系也使得评价机制更加合理,对潜在用户的指导意义也更加具体。准确率高的原因是评论文本满足网络语言的经济性原则,对商品的情感表达相对简单、直接,在领域类别的界定下,通过倾向性词语的极性就能很快地实现单句的极性判定,并取得良好的实验效果。

4 结束语

本文深入结合了中文网购服装类商品评论的特点,有针对性地提出了一种基于客户评论信息分析的服装类商品评价机制。在应用上本文提出细化分类体系的服装类商品的类别特征抽取。通过实验得到该方法的平均准确率为92.2%,平均查全率为85%,平均覆盖率达96.95%,这一结果证明本文提出的评价方法对评价信息的分析不仅判定准确,而且对整个评价信息的覆盖率也高于网上商城现行的信息覆盖率。该方法的应用,将有望解决中文网购客户评论分析只能看最终数据结果,不能给出详细评价对象好差评的问题。

推荐访问: 机制 评价 商品 服装类 用户