您现在的位置是:首页 > 科技 > 正文

ETL仍然是一个挑战 机器学习可以识别和管理元数据

发布时间:2024-10-01 08:27:27来源:

导读 在20世纪90年代,当数据仓库成为众所周知的商业智能(BI)概念时,提取,转换和加载(ETL)成为一个熟悉的概念。网络的出现以及大量数据使许

在20世纪90年代,当数据仓库成为众所周知的商业智能(BI)概念时,提取,转换和加载(ETL)成为一个熟悉的概念。网络的出现以及大量数据使许多组织将注意力从ETL转移到数据湖泊。太多人贬低ETL作为过去的工具。然而,正如IT人员一直意识到的那样,数据湖并不能解决所有问题,而且对ELT进行品牌重塑并没有改变这样一个事实:现在有了比以往更多的资源和目标。数据移动仍然是一个复杂的问题和元数据管理(MDM),并且由于必须更好地跟踪和控制隐私平均数据的监管要求,因此问题变得更具挑战性。

简单地说,元数据是描述数据的数据。元数据告诉系统,然后告诉人们,字段是字符,数字,货币金额等等。在更高级别,元数据给出数据的名称。但是,对于这么多数据,所有系统都有不同的名称。例如,谁知道“工资税”,“州工资税”,“税收11”和“prt2”是否在不同的系统中是指相同的数字?

数据仓库中最大的挑战之一是将来自多个系统的元数据进行网格化以识别逻辑对象,例如“工资税”。随着云时代系统的扩展,这变得更具挑战性。在分析元数据和同步向分析系统前进的信息时,会丢失大量时间。

同时,必须支持逆流。在跨国公司中展示销售的可视化是一回事。销售副总裁想要在注意到有趣的东西时钻回源数据,这是另一回事。如果BI系统唯一理解的是汇总的元数据标签,那么如何从原始系统深入查看详细信息?这些信息的来源是什么?

问题不仅变得更具挑战性,而且变得越来越重要。诸如的GDPR和加利福尼亚即将推出的CCPA等法规要求对消费者数据进行更多的隐私控制。识别私人信息是迈向合规的第一步。

让我们在这个过程中抛出另一个复杂因素。让我们回到跨国公司。它不仅仅是不同系统中的不同名称,而是不同的语言。一个系统具有英文原始元数据,另一个用法语,另一个用德语。翻译不一定有帮助。

人们无法快速处理大型,复杂的元数据集成集。我们需要的是一种算法方法。统计过程既可以用于元数据,也可以用于数据,以便解决问题并快速推荐不同元数据标签之间的关系。

这就是机器学习(ML)的用武之地。通过自动化分析复杂的企业环境可以更快。这个问题的有趣之处在于解决方案可以位于ML方程的更多商业智能方面。几年前,我写过关于我接受改变ML定义的文章。计算能力允许先进的统计建模提供更好的洞察力,因此ML现在位于AI和BI之间。

Octopai是最新攻击整个企业信息架构中的元数据管理挑战的公司之一。当我与首席执行官兼联合创始人Amnon Drori进行交谈时,我们讨论了如何在没有强大的元数据链接的情况下,数据和信息无法准确地从源系统转移到BI系统。“数据已经在任何大公司的多个ETL流程中进行,”Drori先生说。“不仅要查看数据,还要分析流程以找到有助于澄清元数据重用的相似性,这一点至关重要。首先是合规意味着理解您的所有数据,这意味着识别元数据并创建可访问的元数据目录。“

通过在数据和现有流程上使用现代ML流程,公司可以更好地识别并管理这些数据。结果不仅仅是分析的改进。

具有政府法规和合同的现代合规性意味着具有强大元数据管理的公司可以提供信息链的来源并确定私人信息是私密的。无论有多少现代系统试图隐藏它,ETL仍然很重要; 机器学习是一个关键工具,可以帮助管理保持信息准确,受控和流动所需的元数据。

标签:

上一篇
下一篇