您现在的位置是:首页 > 互联网 > 正文

大数据的未来每位蒸馏更少的知识

发布时间:2022-07-03 14:40:02编辑:来源:

直到最近,单词数据不需要修饰符。但是当我们开始提到大数据时,我们通过了分水岭。显然,这对于一些数据块来说并不是一个充分的描述,因为人们掌握了更大胆的术语,例如巨大的数据。可悲的是,现在看来我们已经用完了适当的形容词。然而,数据越来越大。

因此,人们不再提及数据,而是开始挥手,模糊地谈论“云”。这似乎是一个完美的比喻-一种悬浮在地球上的神秘蒸汽,偶尔会在下面的炎热接收者身上下雨。它既不可知又无所不知。只要我们知道如何解释这些答案,它就会回答所有问题。

这种演变让人联想到两幅图像。第一个是来自当前的科学假设,即黑洞中的所有信息都存在于围绕它的事件视界中。这就像云的概念,而在地球下面,云的实际现实体现在激增的服务器农场。这些农场带来了第二个形象:道格拉斯亚当斯的城市规模超级计算机DeepThought,来自经典小说(以及广播剧和电视节目和电影)TheHitchhiker'sGalaxy指南。

考虑到这些想象中的最终状态,我想知道:这一切在哪里?数据会无限增加,还是会有一些收益递减点?是否存在足够的数据-或者可能太多?

有一种流行的说法是“数据是新油。”虽然我认为这是一个不完美的比喻,但油和数据都需要精炼才有用。我注意到TS艾略特的诗“摇滚”中描述的信息金字塔:“我们在知识中失去的智慧在哪里?/我们在信息中丢失的知识在哪里?“

出于我们讨论的目的,假设数据由1和0组成,信息是由数据编码的单词和图像,知识是我们从该信息中收集或学习的内容。关键的提炼是在信息和知识之间。在精炼油中,有用的最终产物与原油起始量的比率不是原油量的函数。信息不是这样:我们必须处理的原始信息越多,我们想要每比特产生的知识就越少。否则,随着数据的不断增长,大数据将无法压倒我们。我们想要的是我们从大国获得的小知识信息。随着数据集变大,工作变得更难。然而,问题在于,除非大信息足够大,否则它可能不包含我们正在搜索的小信号。

知识不可避免地增加,因此数据必须更快地增加。幸运的是,存储技术似乎能够在不将地球变成巨大的磁盘驱动器的情况下应对,但紧迫的是人工智能和算法将数据转化为知识。自从克劳德·香农(ClaudeShannon)在其1948年的经典信息论文中[PDF]以来,我们已经走过了漫长的道路,可以通过写作来简单地忽略知识问题:“这些信息经常具有意义......这些沟通的语义方面是无关紧要的对工程问题。“

我也注意到抽屉,壁橱和硬盘的倾向最终会被无用的垃圾填满。我有时会把这归咎于热力学第二定律,它表明熵-即无序-总是增加。也许这最终会成为云的真实情况。旧的,无用的信息积累,清除它的工作太多了。而且,谁说什么是无用的,什么不是?一切都在那里,但一切都太多了。熵最大化,正如莎士比亚所说,数据最终变得充满了声音和愤怒,没有任何意义。

标签:

上一篇
下一篇

最新文章