尽管大数据分析技术获得了难以置信的变革,但我们在相当大程度上仍必须手动来已完成最重要任务,例如数据切换和数据管理。随着数据量的快速增长,手动已完成任务与自动化产生的生产力差距更加大,这使得以人工智能和机器学习为基础的自动化趋势更加有市场。机器学习可以协助增大这一差距吗?坦率地说道,数据切换和数据管理问题极具挑战性。各行各业的公司都渴求将机器学习与他们的数据库融合用于,以取得竞争优势。
但是,数据不整洁、数据并未构建、不能较为和不给定的数据问题层出不穷,使公司的大数据计划陷入困境。许多专门从事机器学习的数据科学家花费了90%的时间来查询、构建、修缮和清扫其输出数据。
人们或许没意识到数据科学家仍然是数据科学家,而是沦为了数据集成商。不过也有一个好消息,机器学习本身可以协助机器学习。这个点子是利用算法的预测能力来仿真人类数据处理。
这不是100%极致的解决方案,但它可以协助减轻工作强度,让数据科学家改向确实的创意工作。您可以在任何你能购买的地方出售ML,通过用于MLFUN协助您已完成ETL的切换部分。
切换和管理数据虽然它们在某些方面是相近的,但是数据管理和数据切换之间有最重要的区别。数据切换是数据构建过程中的第一步,其目标是将异类数据切换为标准化的全局模式,的组织可以提早制订该模式。自动脚本一般来说用作将美元转换成欧元,或将英镑转换成公斤。切换阶段之后,分析人员开始管理和分析数据。
第一步一般来说牵涉到运营“match/merge”函数来创立与完全相同实体对应的记录集群,例如将有所不同但拼法相近的名称分组在一起。像“编辑距离”这样的概念可以用来确认两个有所不同实体之间的距离。然后用于更好的规则来较为各种实体,以确认等价记录的最佳值。
公司可以声明最后一项是最差的,或者用于一组值中的公共值,这样就可以产生最佳数据。几十年来,这种标准化的两步过程已在许多数据仓库中用于,并且在现代的数据湖中之后用于。但是,ETL和数据管理在相当大程度上没能跟上今天的数据量以及企业面对的挑战规模。
例如,这必须预先定义一个全局模式,这妨碍了许多ETL的展开,这些工作企图构建更好的数据源。在有些时候,程序员无法跟上必需设置的数据转换规则的数量。如果您有10个数据源,您还可以这样做到,但是,如果您有10,000个,那就不太可能了。
似乎,这必须一种有所不同的方法。在小型企业中,您有可能可以提早创立全局数据模式,然后在整个的组织中强迫用于它,从而省却了便宜的ETL和数据管理项目的成本,一起放到数据仓库中。但是,在大型的组织中,这种自上而下的方法不可避免地会告终。
即使大型企业中的业务部门彼此十分相近,它们记录数据的方式也不会有微小的差异。这些微小差异必须加以考虑到,然后才能对其展开有意义的分析,这只是企业数据性质的体现。
因此业务灵活性必须一定程度的独立性,这意味著每个业务部门都创建自己的数据中心。例如,以丰田汽车欧洲公司(ToyotaMotorEurope)为事例,该公司在每个业务国家都有独立国家的客户反对的组织。该公司期望为250个数据库中的所有实体创立一个主记录,其中包括40种有所不同语言的3000万条记录。
丰田汽车欧洲公司面对的问题是,ETL和数据管理项目的规模是极大的,如果按照传统方式展开,将消耗大量的资源。该公司要求用于Tamr来协助解决问题机器学习的挑战,而不是数据切换和用于数据管理过程。
ETL仅次于的问题是早已预先定义了全局模式,如何大规模地做这一点是个问题。必须用于机器学习展开自下向下的给定、自下而上地结构目标模式,从规模上看,这是唯一不切实际的方式。
这并不意味著机器学习获取了非常简单的方法来解决问题这些棘手的数据构建问题。它依然必须大量的数据和处置能力,您一般来说必须一个最杰出的员工来协助指导软件取得准确的数据分析结果与决策看法。
这样来看的话,成本并不低廉,但这不是最重要的。但还有一个问题是,有所不同的供应商之间该如何自由选择。有所不同国家或地区的供应商获取的解决方案有所不同,而且出于一些宏观因素,不会经常出现有所不同的自由选择。
出于安全性考虑到,这些数据问题无法几乎外包给其他公司,所以不要确信几乎用机器学习来处置数据,人在其中的起到还是十分最重要的。人与机器学习合作才需要使您的数据构建和管理效率最大化。
本文来源:星空·体育综合APP下载官网-www.zhonghuafly.com