我们提出了一个有关为自动化系统建立概念验证的早期发现,这个系统可以识别有关车辆缺陷的新兴趋势。所提议的系统通过从在线社交媒体到车辆爱好者论坛和消费者报告站点等多个不同渠道连续收集和监视公共可用数据来运行。通过挖掘收集到的数据,该系统将对车辆日常消费者问题进行实时检测。另外,我们的系统特别强调在公众广泛了解之前检测早期信号。系统组成部分之一涉及估算基线统计分布,该分布控制着从我们的数据源中观察特定类型的车辆缺陷投诉的频率,然后从该分布中识别出不规则的偏差。提供了一个web界面,用于可视化来自不同渠道的描述性统计数据,目的是为分析人员提供及时的见解。
出现的问题近年来,由于性能缺陷,越来越多的公众注意力集中在汽车行业对召回车辆的处理上。由于召回工作的影响在很大程度上与所售车辆的数量成正比,因此尽早发现缺陷对于维持客户的信誉和降低汽车制造商的召回成本至关重要。现代汽车比以往任何时候都更加复杂,较小的缺陷可能会影响其他一系列组件的功能,因此必须尽早识别出任何潜在的缺陷。
传统上,车辆制造商通过特定的检查和维护程序来确定潜在的车辆问题。 这些过程的生命周期很长,但是在预期广泛的召回事件时通常很慢。然而,由于网络技术的重大进步,现在公众已成为与车辆性能问题相关的高度可访问信息的来源。研究人员已开始利用这些数据源来预测未来可能发生的车辆召回,以及最终目标是防止将来发生车辆召回。受到他们工作的启发,本文开发了一种新颖的车辆新兴缺陷监视(EDSV)系统,旨在为监视车辆缺陷问题的人类分析人员提供高质量的主题信息和决策支持。
三、解决方法我们开发了一种新颖的车辆新兴缺陷监视(EDSV)系统,旨在为监视车辆缺陷问题的人类分析人员提供高质量的主题信息和决策支持。EDSV采用了来自多个异构源的数据。系统从社交媒体服务(例如Twitter),主题在线投诉资源(例如CarComplaints.com),汽车论坛(例如ChevroletForum.com)和在线公告板(例如Reddit)收集信息。利用多个数据源具有关键优势。一个直接的优点是这些站点具有不同的用户基础,从而使系统可以从不同人群中收集信息,并将多个信号融合为一个强大的指标。另一个优点是EDSV使用的某些新资源提供了更高的数据质量。此外,我们的系统通过精确地指出潜在的麻烦问题或召回到特定车辆型号、年份和车辆部件的一般类别(例如,发动机问题或燃油系统问题),增强了以前的工作。具体讨论了数据源的特征,并说明了如何使用这些数据来识别与车辆缺陷有关的新趋势。
四、EDSV系统1、开源数据收集
1.1、在线社交媒体:社交媒体和微博平台已被广泛证明可用于跟踪和监视现实事件。特别地,Twitter被认为具有特殊的意义,因为该平台已在文献中被广泛研究以用于新兴事件/主题检测。我们订阅GNIP1 Twitter Decashose服务来检索Twitter数据,该服务包含所有公共Tweets的10%随机样本。GNIP数据实时传递到我们的系统,并存储在Apache Hadoop集群中,该集群具有万亿字节的组合内存,用于流处理。
1.2、消费者报告网站:我们从著名的消费者报告网站CarComplaints.com上收集数据,可作为用户生成的与车辆相关的投诉的丰富来源。用已经开发的一种专门的网络爬虫工具从该网站上提取不同级别的信息。一个级别是对于给定的车辆型号和年份,按组件类型提取一般类别中的投诉数量。在另一个级别上,提取对这些相同投诉的更具体描述,并在子组件级别上使用给定的数值评分来报告有多少用户进行了特定投诉。我们还会使用相同的来源提取有关给定型号和年份的NHTSA(国家公路交通安全管理局)投诉的汇总信息。该网络爬虫可以有选择地提取特定品牌的信息,也可以设置为自动忽略一些投诉低于某些给定阈值的模型。
1.3、论坛:我们还从汽车爱好者列出的特定网络论坛中收集辅助数据。我们构建了另一个网络爬虫工具,递归地从目标论坛包含的子论坛中下载所有历史帖子。还可以捕获其他信息,例如发布时间,用户名和主题标题,并以标准化格式存储这些信息,以供最终用户将来使用。
1.4、在线公告板:我们可以访问在线公告板Reddit的多年公开完整帖子数据,Reddit拥有许多供汽车维修和汽车爱好者使用的讨论线程,这些数据可以方便地在线索引并可以使用大数据处理工具(例如Google BigQuery2)公开访问。目前,这些数据像论坛一样被用作辅助信息源,以向最终用户提供有关车辆问题的更多详细信息。
2、数据分析方法
本文的重点数据分析方法是前两个数据,这两个数据来源互为补充,以检测汽车缺陷问题。
2.1、实时事件监测
我们应用了一系列基于文本的过滤器,以不断检测和监视Twitter数据流中的缺陷和相关事件。基本上,EDSV会在每个Twitter帖子中搜索提及的汽车品牌和与缺陷问题高度相关的关键字。通过这两个过滤器的帖子将被收集并标记为待评估。可以通过相关帖子数中的快速“爆发”来识别事件。我们编译了两个关键字列表:第一个列表包含具有与火相关的语义的单词,第二个列表包含从2015 NHTSA缺陷调查数据库3中收集的单词,该列表由数据库中提到的最常见的缺陷组件组成。第一个列表试图识别与火灾相关的一般缺陷事件,第二个列表着重于查找与特定车辆部件有关的潜在事件。
图1(a)显示了2014年上半年以来汽车品牌和火灾相关关键字的提及时间序列。从该时间序列中可以观察到与各种与车辆缺陷相关的事件相对应的多个峰值。图1(b)显示了“雪佛兰”品牌和汽车零部件的时间序列关系,“安全气囊”在6月份出现了大幅上升,这可能与雪佛兰科鲁兹召回潜在的安全气囊缺陷有关。应该指出的是,在断定发生重大事件之前检查突发峰值的情况至关重要。
2.2、新兴趋势监测
我们的系统在让公众广泛了解到之前,可以识别出新出现的与缺陷相关的趋势的早期指标。主要方法是通过分析消费者报告网站CarComplaints.com收集的数据。我们用包括大范围的牌子、型号和年份的汽车投诉类型的相对频率来生成基线分布,以确定我们应该期望的特定类型的投诉相对于其他投诉的频率。在图2中,我们提供了一个图表,以可视化显示与特定年份车型相比,所有年份和车型的投诉的相对频率。
我们将这些相对频率视为密度估算值,以计算两个指标,这些指标可以指出对于给定型号和年份、车辆部件类别是否存在潜在问题。对于第一个指标,我们将把所有年份和型号中观察到的某种类型投诉的相对频率,与在特定年份和型号中所观察到的那种类型的相对频率进行区别,然后汇总这些值,并使用该指标表示的最大值来表示潜在问题。对于第二个指标,我们将给定类别中发生的投诉数量建模为二项式分布,并进行单边精确二项式检验。假设传入的投诉遵循独立的伯努利过程,如果投诉属于突出的那一类别,则成功;如果投诉属于另一类别,则失败。
假设给定的型号和年份在c类中观察到x个投诉,在所有类别中有n个投诉。 令pc为所有年份和型号中给定类别c的投诉的相对频率。 令Xc为代表给定模型和年份的c类投诉数量的随机变量,所有类别中的投诉总数为n,我们将假设其服从二项式分布,其中固定试验次数为n,成功概率θ未知。对于我们的度量标准,我们查看当Xc〜binom(pc,n)的上边界事件{Xc≥x}的概率。结果分数是带有假设的单项二项式检验的p值:
H0 : θ = pc
HA : θ > pc
我们使用p值作为度量标准,根据其潜在的缺陷和相关问题,对不同型号和年份的车辆部件类别划分等级。
尽管我们的指标返回的大多数最高结果都表明车辆缺陷或质量控制问题,但我们仅对导致实际安全召回或当前正在召回召回的问题标记“真实”。因为我们的系统旨在识别任何潜在问题,包括那些尚未引起汽车制造商正式召回的问题。结合EDSV系统的其他方面,将为分析人员提供帮助和决策支持,以查明特定的新威胁或其他高危因素。
为了促进用户适应,本文还使用Tableau开发了一个前端Web界面,以根据描述的方法可视化结果和分析。图3显示了分别为Twitter社交媒体平台(后面板)和CarComplaint报告平台(前面板)构建的两个Tableau仪表板。社交媒体仪表板显示有关车辆缺陷相关问题的相关帖子的汇总时间序列、社交媒体帖子的地理分布以及提取的帖子中讨论的车辆组成的百分比。消费者报告仪表板显示有关特定型号和车辆年份的投诉,各种品牌的缺陷组件的分布以及不同组件的投诉数量的变化。
五、结论
我们引入了一个系统,通过从多个异构在线源获取数据来检测和评估有问题的车辆缺陷和潜在的未来车辆召回。这些来源从传统的网络论坛数据到社交网络服务,再到特定领域的消费者报告网站。 我们将来自这些不同来源的信息结合在一起,并进行详细的统计分析,以提供有关与车辆分析员有关的缺陷潜在问题的不同级别的信息。