数据治理和数据质量已经存在了相当长的时间,但这些重要的数据管理实践近来又重新引起关注。Dataversity最近采访了Syncsort产品管理总监哈拉尔德·史密斯(Harald Smith),就数据治理和数据质量的这种复兴和未来发展方向,请史密斯谈了谈他的看法。
他们的网站写道:“Syncsort是一家为大型机提供大数据解决方案的领先企业。”Syncsort的关注点是大型机的高性能数据排序。史密斯说:
“在高性能数据移动和转换的过程中,排序是关键的一步。但有一个大问题要解决,那就是‘如何有效地处理移动中的数据?’”
一年多以前,Syncsort收购了Trillium Software。史密斯说,Trillium现在为Syncsort提供了“一个非常广泛的数据管理组合”,而对核心遗留数据的获取已经成为一个重要课题。Trillium出身自数据质量领域,其关注点是解决核心数据清理、标准化和重复项删除方面的挑战。
史密斯说,凭借这次收购和新扩展的数据管理组合,“我们现在向全球大约6000家企业提供产品。我们在金融服务领域一直非常突出,在零售和酒店业等领域也是如此,这些领域非常重视”从客户数据中寻找洞见。
数据质量和数据治理的复兴
史密斯认为,近期使人们对数据质量和数据治理重新产生兴趣的驱动因素主要有两个,分别是合规性和提高市场竞争力的渴望。他说,自从2008年金融危机以来的这十年中,金融服务行业很多时候都在努力解决合规性问题,但欧洲的数据隐私法规(特别是《通用数据保护条例》)正在对所有行业产生重大影响。
史密斯认为,美国不会在2018年出台类似法规,但他说,“任何跨国企业都必须解决这一问题。你不会真的想处于被动局面”。他指出,有些工具可以识别、监控并按要求删除信息类型,即使是在未必预料到的地方。
“你希望对数据有那样的了解,这肯定强烈地促使你采用各种工具,帮助你了解你的大数据环境和整个数据图景,持续不断地进行监控。你知道这可能帮助你发现那些客户数据所在的位置。这是明显的驱动因素。”
Syncsort产品管理副总裁基思·科尔(Keith Kohl)也分享了他的一些想法。他同样认为,监管和隐私是使人们对数据治理和数据质量重新产生兴趣的两个驱动因素。
“随着企业越来越懂得如何使用大数据,大数据不再只是任何人都能进入的沙箱,它是真正的工作负荷,需要围绕它进行治理控制。这是强制性的:需要建立一些流程,需要一些人来执行,这项技术本身必须支持所需的控制和审核。”
另一个驱动因素不那么明显,但越来越多的客户向史密斯表示了这点,那就是提高竞争力。“我想增加公司收入,我想了解如何更高效地完成任务,这意味着我必须可以处理我能信任的、拥有正确内容的数据。”
他举了一个例子。有一家做网络销售的公司想知道其英国客户的位置,他们的方法是查看IP地址,并在地图上标示出来:“有些请求来自北部,有些来自西南部,但很多的地理位置信息都模糊不清,是基于非标准化的集中式信息,而且没有验证基于地址的内容。然而在应用了一些质量工具之后,整个图景都发生了变化。”
突然之间,这家公司发现,他们的大多数客户和询问都来自伦敦及附近郡县,这需要他们改变其营销工作的侧重点。
数据质量和数据治理的交集
史密斯看到了一个趋势,即人们越来越了解数据质量在企业成功中发挥的作用:“人们开始认识到,明智的商业决策需要高质量的数据,这就是他们希望数据质量到位的重要原因。然后你可以开始说,‘我该怎么实现?’好吧,我需要数据治理流程发挥作用,这样我就可以对数据质量进行监控、衡量和密切追踪。”
数据治理创造了一种数据质量文化,以便“所有业务线都了解数据质量对企业作出明智决策的重要性”。科尔还说:“除非拥有恰当的数据治理策略(包括数据质量控制和监测),否则根本做不到这一点。这仍将是2018年的一个紧迫问题。”
数据质量和数据治理:不再可有可无
“数据治理和数据质量一直都很重要,”史密斯说。哪怕是在20年前也是如此。“那时,数据还不像现在这么多,但重点不在于有多少数据。如果你不治理,数据没有质量,即使数据再多也无济于事。”
史密斯强调,基本的数据管理实践、概念和技术一直都在我们身边,“甚至变得更加突出。为了能够利用这些数据集做好数据科学,你必须知道你在做什么,否则你将浪费大量的时间和金钱”。不了解数据的来源,或者不了解数据是否适合预期用途,都会对成本产生影响。此外,数据不仅呈指数增长,而且来源日益广泛。
“数据增长的速度越来越快,管理起来非人力可及。因此,你必须开始采用一种质量控制方法(一种衡量方法),这是数据治理过程的重中之重,”他说。
史密斯说,最近有研究显示,很多数据科学家花费了近80%的时间寻找和准备数据。他说,就人力成本而言,这不是一项划算的投资。
“你付钱让他们处理你的数据,提出新的洞见和建立新的模型,帮助你评估有关客户或行业的不同预测,但他们的时间却没有花在这些事情上。”
虽然仍有试验的空间,但按照数据治理策略创建的可重复过程必须就位。
“在这么做的时候,你必须能够为下一个人提供严谨性,说‘这就是我获得此数据源的地方。’我认为,在未来五年左右的时间里,随着各行各业努力钻研这些概念并试图管理那些数据,我们将会看到这方面的大幅变化。这就是关于数据质量和数据治理的实践和工具真正的发展方向。”
史密斯说,保持竞争力越来越有必要,人们越来越意识到数据分析和机器学习等技术对企业成功的作用,这两点推动了文化上的转变。“我认为另一个重要因素是如何改变整个公司,使其具备数据方面的知识,了解什么是数据。”企业如何解决这个问题?企业可以使用哪些工具来帮助解决这个问题?仅仅有了工具是不够的。工具到位后,企业还必须让员工明白这些工具能做什么。
史密斯认为,当企业努力应付体量庞大、增长迅猛的数据时,这种文化上的转变对企业至关重要。
支撑新技术:数据治理和数据质量
科尔看到了一个更快获取信息的趋势,企业可能担心自己改变得不够快。“如果你无法实时进行数据分析,现在还不算太晚,但你需要立刻行动起来。”他预计,机器学习的应用将超出数据分析的范畴。
“人们越来越意识到,人工智能可以应用于生活中的一切,不管是简化他们的工作,还是帮助他们做出明智的决定。Syncsort预测,在2018年,机器学习和人工智能将在各种技术中更加普及。从产品到分析,再到数据质量和数据治理,人工智能适用于一切。”
史密斯还预测,未来五年,新技术的广泛使用将有助于改善“数据质量和数据治理的实践和工具”。由于大量数据来自不同的来源,因此必须制定数据治理策略,以便“对一切进行标记和记录,使你能够了解内容、来源和完整程度,从而不会(做出)有偏见的商业决策”。
史密斯说,根据高质量数据作出明智的商业决策,“这是数据治理和数据质量的发展方向”。