您现在的位置是：首页 > 互联网 > 正文

大数据的未来每位蒸馏更少的知识

发布时间：2022-07-03 14:40:02编辑：来源：

直到最近，单词数据不需要修饰符。但是当我们开始提到大数据时，我们通过了分水岭。显然，这对于一些数据块来说并不是一个充分的描述，因为人们掌握了更大胆的术语，例如巨大的数据。可悲的是，现在看来我们已经用完了适当的形容词。然而，数据越来越大。

因此，人们不再提及数据，而是开始挥手，模糊地谈论“云”。这似乎是一个完美的比喻-一种悬浮在地球上的神秘蒸汽，偶尔会在下面的炎热接收者身上下雨。它既不可知又无所不知。只要我们知道如何解释这些答案，它就会回答所有问题。

这种演变让人联想到两幅图像。第一个是来自当前的科学假设，即黑洞中的所有信息都存在于围绕它的事件视界中。这就像云的概念，而在地球下面，云的实际现实体现在激增的服务器农场。这些农场带来了第二个形象：道格拉斯亚当斯的城市规模超级计算机DeepThought，来自经典小说(以及广播剧和电视节目和电影)TheHitchhiker'sGalaxy指南。

考虑到这些想象中的最终状态，我想知道：这一切在哪里?数据会无限增加，还是会有一些收益递减点?是否存在足够的数据-或者可能太多?

有一种流行的说法是“数据是新油。”虽然我认为这是一个不完美的比喻，但油和数据都需要精炼才有用。我注意到TS艾略特的诗“摇滚”中描述的信息金字塔：“我们在知识中失去的智慧在哪里?/我们在信息中丢失的知识在哪里?“

出于我们讨论的目的，假设数据由1和0组成，信息是由数据编码的单词和图像，知识是我们从该信息中收集或学习的内容。关键的提炼是在信息和知识之间。在精炼油中，有用的最终产物与原油起始量的比率不是原油量的函数。信息不是这样：我们必须处理的原始信息越多，我们想要每比特产生的知识就越少。否则，随着数据的不断增长，大数据将无法压倒我们。我们想要的是我们从大国获得的小知识信息。随着数据集变大，工作变得更难。然而，问题在于，除非大信息足够大，否则它可能不包含我们正在搜索的小信号。

知识不可避免地增加，因此数据必须更快地增加。幸运的是，存储技术似乎能够在不将地球变成巨大的磁盘驱动器的情况下应对，但紧迫的是人工智能和算法将数据转化为知识。自从克劳德·香农(ClaudeShannon)在其1948年的经典信息论文中[PDF]以来，我们已经走过了漫长的道路，可以通过写作来简单地忽略知识问题：“这些信息经常具有意义......这些沟通的语义方面是无关紧要的对工程问题。“

我也注意到抽屉，壁橱和硬盘的倾向最终会被无用的垃圾填满。我有时会把这归咎于热力学第二定律，它表明熵-即无序-总是增加。也许这最终会成为云的真实情况。旧的，无用的信息积累，清除它的工作太多了。而且，谁说什么是无用的，什么不是?一切都在那里，但一切都太多了。熵最大化，正如莎士比亚所说，数据最终变得充满了声音和愤怒，没有任何意义。

标签：

您现在的位置是：首页 > 互联网 > 正文

大数据的未来每位蒸馏更少的知识

猜你喜欢

最新文章