瑞士物理学家拟10亿欧元打造超级机器预测未来

张硕御月 · 发表于 2012-2-6 16:45:17

马上注册！

您需要登录才可以下载或查看，没有账号？注册

×

　　如果你将有关这个世界的所有数据输入一个黑盒子，这个黑盒子能否变成一个水晶球，可以让你窥见未来——甚至还可以根据你的选择来测试将要发生什么？至少有一个人认为可以，而且他即将获得10亿美元的资金来打造这个黑盒子。

　　撰文戴维·温伯格(David Weinberger)翻译张燕晶

　　在2010 务，希腊不得不面对一系列潜在的后果。当然，这些后果不会有人愿意看到。希腊政府削减开支的尝试，年的夏季和秋季，希腊的财政危机撕开了全球经济的伤疤。由于欠下了一屁股永远没有能力还清的债引发雅典街头的暴乱。同时，希腊债务违约的威胁，也给全球金融市场敲响了警钟。许多经济学家都认为，希腊必须退出欧元区，并让其货币贬值，从理论上说，只有这样才能帮助经济发展。“没错，(希腊)有序退出欧元区将十分艰难，”美国纽约大学的经济学家诺里埃尔。鲁比尼(Nouriel Roubini )在为英国《金融时报》(FinancialTimes) 撰文时指出：“但是，眼看着希腊的经济和社会缓慢而无序地崩溃，则是更糟糕的事。”

　　然越多的人担心，希腊一旦脱离欧元区，那么西班牙和意大而，没有一个人能够百分之百确定剧情将如何发展。越来利或许也会效仿，这样就会使欧盟的关键纽带进一步削弱。但是英国著名财经杂志《经济学人》(Economist)却认为，危机会“促使布鲁塞尔(欧洲央行所在地)加强对财政政策的控制，将欧元区变为一个在政治上更加一体化的俱乐部”。这些结果还将进一步带来广泛的影响：申请进入欧盟的移民也许会转而涌入生活费用较为便宜的希腊；旅游人数的下降，也会使得传染病的扩散受到限制；贸易路线的改变则会破坏当地的生态系统。

　　其实问题本身非常简单——希腊到底要不要退出欧元区？但问题将会带来的后果却很难预料，其结果过于复杂，即使是世界上最聪明的专家也无法把握这一切将会带来的变化。

　　德克· 赫尔宾(Dirk Helbing )是一位物理学家，同时也是瑞士苏黎世联邦理工大学的社会学教授，他试图花费10 亿欧元来打造一个计算系统，用以对世界上将要发生的事情作出有效预测。而前文提到的那些问题，恰恰就是刺激他这么做的动机。赫尔宾的系统绝不仅限于用来预测金融、政策或环境等的某一方面。他的目标非常明确，那就是要预测一切——即这个世界上的所有事情——从而找到决策者面临的最棘手问题的解决方案。这个项目的核心部分被称为“活地球模拟器”(LivingEarth Simulator)，它试图模拟一个全球尺度的系统——包括经济、政府、文化趋势、流行病、农业、技术发展及更多领域——这需要用到巨量的数据流、高级的算法，以及能让系统运转起来的硬件设施。在赫尔宾的竭力推销下，欧盟委员会被打动了，因此，他们在有6个项目参与的最终角逐中，将赫尔宾的项目排在第一位，并向他的项目投入10亿欧元。

　　这个系统是对“巨量数据”最具雄心的表达，在许多科学家看来，此趋势堪与当年望远镜或者显微镜的发明相媲美。美国哈佛大学医学教授、社会学家尼古拉斯· 克里斯泰基斯(Nicholas Christakis )说，呈指数式增长的数字化信息将计算机科学、社会科学、生物学等通过各种方式结合在一起，这让我们有能力应对那些此前无力解决的问题。克里斯泰基斯举了一个例子，无处不在的手机可以创造出大量的数据，比如一个人正在前往什么地方，他们在购买什么，甚至可以追踪人们都在思考些什么。很多科学家都相信，只要将这些数据同其他类型的数据结合起来——比如来自基因组学、经济学、政治，以及其他领域的数据——众多新颖的探索领域很快就会向科学家敞开大门。

　　“科学上的进步一般都是由仪器来推动的。”戴维· 雷泽尔 (David Lazer )说，他是美国西北大学计算机和信息科学学院的副教授，同时也是赫尔宾项目的支持者。有了工具，任务也就随之而来，如雷泽尔说的那样：“科学就像一个醉汉在街边的路灯下找钥匙，因为那儿的光线更好。”对赫尔宾的支持者来说(其中包括来自全球的数十位备受尊敬的科学家)，10 亿欧元的资金足以获得非常明亮的“光线”。但仍有许多科学家对是否需要将全球的数据汇集到一个中央数据库持怀疑态度。他们认为，更好的方式是通过互联网形成数据云，然后通过链接来使它们能供所有人利用。这种数据分享格式能让更多人有机会浏览查看数据，然后找到潜在的联系，并为有竞争力的创意创造一个交流场所。

　　超级复杂顶级模型

　　对现代科技而言，寻找各类数据之间的联系实属稀松平常，即使现在这些数据堪称海量，它们之间的关系也相隔十万八千里。例如，美国麻省理工学院人类动力学实验室主任亚历克斯·彭特南德(AlexPentland )指出，研究者已积累了大量有关人类行为的匿名数据，足以通过分析这些数据，找出诱发II 型糖尿病等“行为方式疾病”(diseases of behavior )的行为学和环境方面的复杂因素。彭特南德说，这种海量数据挖掘的方法使得一项始于1948 年、累计有5 209 名自愿者参与的极具创意的心血管病研究[俗称“弗雷明汉研究”(Framingham study)]，看起来就跟一项小组研究差不多。

　　然而，赫尔宾的“未来信息通信技术知识加速器”(FuturICT Knowledge Accelerator )以及“危机缓解系统”——这是该项目的正式名称——远远超越了数据挖掘的范畴。该项目包括“全球危机气象台”，四处搜寻危机出现的苗头，例如食物短缺或者流行病的出现。它还有一个被称为“地球神经系统”的组成部分，能将分布在地球各地的传感器采集到的数据汇总起来。但是， FuturICT 的核心还是要数“活地球模拟器”，它可以对世界上正在起作用的，来自社会、生物、政治以及物理的无数力量进行模拟，并利用它们来获得对未来的认识。

张硕御月 · 发表于 2012-2-6 16:45:55

　　当预测结果难以理解时

　　什么模型可以预见到世界范围内每天都在发生的动荡？或者预见到2001 年9月11 日的那场恐怖袭击，以及它带来的深远影响？又或者预见到因特网从研究者专用的一个不起眼的网络，变身为全世界最重要的工具，催生或颠覆了整个行业？纳西姆· 尼古拉斯· 塔雷伯(Nassim Nicholas Taleb )在他2007 年的畅销书《黑天鹅》(The Black Swan )中阐述道，这就是通俗化的“黑天鹅问题”(black swan problem)。“这个世界总会比模型更加复杂，”奥苏贝尔说，“事实永远如此。 ”

　　更糟糕的是，赫尔宾想要弄清楚的社会、政治以及经济系统，绝非复杂二字就能形容。这些系统具有混沌的特性。它们中的每一个都依赖于成百上千个独特因素，相互间的关系非常复杂，而且还深受初始状态影响。在混沌系统中，每件事都有某种起因，或者更准确地说，每件事的发生都有多得不计其数的起因，因此对事件只能作最普遍、最一般性的预测。例如，美国乔治· 梅森大学的气候学家、全球环境与社会研究院(Institute of GlobalEnvironmentandSociety )主席雅格蒂西·舒克拉(Jagadish Shukla )曾告诉我，虽然我们能提前5天预测天气，“但如果想要提前15 天做出预测，那是不可能的。无论你安置了多少个传感器，初始条件总会有误差存在，而且我们所使用的模型也不是完美的”。舒克拉说：“局限性并非来自技术方面，而在于系统的可预测性本身。 ”

　　舒克拉一直小心翼翼地把天气和气候区分开来。我们也许无法预测100 年之后的某天下午是否会下雨，但是我们可以在一定程度上准确预知那时的平均海洋温度。“尽管气候是一个混沌系统，但它仍然具备可预测性，”舒克拉说。对赫尔宾的模型来说也是如此。“复杂的金融市场运作也许比天气的可预测性更低，”赫尔宾在一封电子邮件中写道，“但事实上，我们可以通过对某些宏观经济数据(例如，很多年以来，美国人的消费总是比收入增长得更快)的分析，预测出金融危机迟早会发生。 ” 但是，不需要一大堆超级计算机、天文数字般的巨量数据，以及花费10 亿欧元，我们也能获知这些。

　　如果模型的目的是为了给政策制定者提供有科学依据的咨询意见(就如赫尔宾在证明10 亿欧元赞助费物有所值时所强调的那样)，一些新的现实问题就会冒出来。首先，我们尚不清楚，人类的大脑是否已经有能力理解超级计算机给出它们的答案时的过程与依据。当模型足够简单时——比如有关英国经济的“水工学”模型——我们可以追溯模型的运作，并意识到个人存款账户的缩水是加税过快而带来的一个意料之外的后果。不过，那些依赖于大量数据计算，并需要通过结果反馈来加以调整的复杂模型即使能提供可靠的结果，其过程之复杂也是人类大脑所难以理解的。也就是说我们只能知其然而不能知其所以然。

　　当我向赫尔宾问到这一局限性时，他停顿了一下，然后告诉我，他认为人脑能够理解的那些基本规律以及公式，最终可能都会浮现出来，因为他在研究交通时遇到的情况就是这样。但是，汇集了金融系统、社会行为、政治运动、气象学以及地理学的交叉口，其复杂程度远非朝着同一个方向行进的三车道交通能够比拟。所以，人类也许无法理解，当模型被问到一旦希腊脱离欧元区会产生什么结果的问题时，它凭什么会预言灾难即将到来。

　　如果无法理解为什么某一行动路线是最佳方案，一个国家的总统或首相就永远不可能据此采取行动——尤其是当这样的行动看上去荒谬可笑时。哥伦比亚大学的统计学家维多利亚· 斯图登(Victoria Stodden )构想了这样的情景：一位政策制定者获知了“活地球模拟器”的预测，并宣布“为了让全世界摆脱经济危机，我们必须烧掉地球上所有的油井”。如果政策制定者无法解释这样做的理由，那么这就是一个无法被执行的建议。毕竟，即使科学家事实上已经就气候变化带来的威胁大体上达成共识，政策制定者还是拒绝为每一个严肃的环境模型所预测的未来做好准备。

　　网民与网民的争论赫尔宾现在所描述的FuturICT 是一项巨大且复杂的工程，需要一个中央组织来对它加以管理，因此，也就难免出现这样或那样的实际问题。赫尔宾将负责监督一个包括硬件建设、数据采集、结果返回等工作的全球化项目。

　　但这不是约翰· 威尔班克斯(John Wilbanks )想要的。威尔班克斯是非营利组织“知识共享”(CreativeCommons )分管科学的副总裁，他和赫尔宾一样热衷于巨量数据，但他的直觉让他把目光投向因特网而不是钟情于建立机构。在威尔班克斯的领导下，一个旨在组建形形色色的“共享数据”系统(data common)，让所有人都可以利用它们的项目正在展开。这个项目旨在让全世界的科学家都加入到一个汇集了各种创意、模型和结果的开放的交流场所中。与规划一个具备有序输入和高价值输出功能的形式化机构相比，威尔班克斯的方法可谓反其道而行之。

　　上面的两种方法强调了两种不同的价值标准。数据分享也许不能获得一个封闭系统实行的专业人员审核过滤制所带来的好处，但威尔班克斯坚信，这种方法通过其“繁殖力”的优势足以地弥补这一缺陷[繁殖力(generativity )这个术语引自乔纳森· 奇特林(Jonathan Zittrain )在2008 年的著作《互联网的未来》(The Future of the Internet)，指一个系统通过大量各种类型的受众做出的未经过滤的贡献，从而获得意料之外的变化的能力]。例如，互联网允许每个人都参与进来，这就是它为什么能成为一个强大的创新引擎的原因。在威尔班克斯看来，如果科学家都能利用到尽可能多的数据，如果一切信息都能对所有人开放，并且易于使用，而且这些信息能够实现跨学科、跨单位、跨模型的整合，科学就能以最快的速度取得进步。

　　在过去数年里，一种新的数据“语言”浮出水面，这让威尔班克斯的梦想看起来不再那么遥不可及。此语言源自于万维网(World Wide Web )创始人蒂姆· 伯纳斯—李(Tim Berners- Lee)2006 年阐述的若干原则。在这种“链接数据”格式中，信息的输入形式简洁明了：X和Y以某一特定方式相关；这种相关性可以是发布数据的人所想要的任何东西。例如，如果知识共享组织想要以链接数据的形式发布他们的员工信息，他们可以用一系列“三元组”来提供数据： (triples) [约翰·威尔班克斯][ 领导着][ 知识共享组织的科学部门]，[约翰· 威尔班克斯][ 的电子邮件地址是][johnsemail@creativecommons.org] ，诸如此类。而且，由于世界上不止一个人叫约翰· 威尔班克斯，“领导” 一词也有其他意思，因此这些“三元组”中的每一个元素都包含着一个网络链接，指向一个权威的，或者清晰无误的信息源。例如，“约翰· 威尔班克斯”的链接或许就指向了他的主页，或者是CreativeCommons.org (知识共享组织的主页)介绍他的页面，或者是维基百科(Wikipedia )中关于他的条目。而“领导” 的链接则有可能指向一个标准词汇表，这个词汇表定义了他所起的领导作用的类型。

　　这种关联结构可以让研究者将来自多个源头的数据联系起来，而无须先就一个用以解释各部分之间关系的抽象模型达成一致。这样一来就大大降低了发布数据之前数据准备工作的成本。它同样也提升了这些数据被发布后的价值。

　　这种“链式数据”的方式可以使更多人注意到某一特定数据集上，因而增大了某人偶然发现一个有趣的信号的可能性。更多的假说可以被测试，更多的模型也可以被检验。“网民们的思想需要碰撞，”威尔班克斯说，“他们需要辩论模型中所用的变量和数学是否准确，还有前提假设是否正确。”这个世界非常紊乱，以至于我们读懂它——比如及时发现潜在的金融危机—— 的最佳机会，就是让尽可能多的人都来对它指手画脚一番。对威尔班克斯和他的团队而言，让数据公开且可以通用是第一步，也是革命性的一步。在参与辩论的各门各派中必定有一些拥有非凡智慧且打造出了精致模型的机构。但是，要让真相浮出水面，第一个而且最基本的条件还得是争论本身——网民与网民之间的争论。

　　威尔班克斯和赫尔宾都将“天量数据”看作是一场革新，他们也都期望，能被科学地理解的社会行为比我们前些年设想的要多得多。赫尔宾并没有打算通过向赞助方描述“活地球模拟器”如何防止国家破产及全球危机以说服他们出钱(如巴拉巴希所言，“如果你试图说服政治家，那你就必须谈论最终产出”)，而是承认FuturICT 将会支持多个彼此间存在竞争的模型。而且，赫尔宾还渴望能完成人类历史上最大规模的一次数据采集，并将它们中的绝大多数公之于众。(其中一些必须保密，因为它们来自商业机构的有限授权，或者包含了个人隐私信息。) 无论怎样，差异是实实在在的。对赫尔宾以及他的数据架构师维斯皮纳尼来说，确认FuturICT 支持多个模型不会让他们止步不前。“甚至天气预报都是基于多种模型完成的，”维斯皮纳尼说。然后他又说：“把它们结合起来，就可以得到一个有关各种结果发生概率的统计推断。”对赫尔宾和维斯皮纳尼而言， FuturICT 的价值就在于它可以汇集多种模型，得出一个答案。

　　当然，数据共享的目标也是向真相汇聚。但它既然采用网络架构，它就承认甚至是鼓励富有成效的意见交锋。科学家可以使用不同的模型、不同的分类标准、不同的术语，但是他们仍然可以彼此交谈，因为他们可以通过其共享的数据链接回到因特网或者现实世界中的某个已知的联系点。也就是说，他们可以各干各的，但仍能相互交流甚至合作。威尔班克斯认为，差异不会消失，变成众口同声的一言堂，因为存在不同的文化，不同的出发点，甚至不同的脾性。这种数据大众化的方法不但意识到差异的长期存在，而且承认甚至鼓励这种存在。

　　网络重新定义知识

　　最显而易见的问题也是最实际的问题是：哪种方法将取得更佳的效果？[ 这里的“效果更佳”指的是能够推动科学前进，并针对有关未来的那些难题给出有意义(而且准确)的答案。]

　　归根结底，答案也许可以归结为对知识的本质特性的争论。两千多年来，西方一直将知识看作是一个已确定的、始终如一的真理系统。也许这种看法更多地暴露了知识传播手段而非知识本身的局限性：当知识被不褪色的墨水写在纸上从而被传播和保存的时候，人们就会认为它通过了验证而且不会再改变。然而，新的知识传播媒介不再是印刷出版物，更多的是通过公开的网络传播。我们可以从数据共享中获取大量知识，但它们随时以这样或那样的方式被修改，因此这些知识就更像是一种连续不断的论证。事实上，这就是网络时代的知识：永远不会被完全确定，永远不会写完，永远不会彻底搞定。

　　FuturICT 平台的目标是打造出一个能足够完美地代表地球的机器，我们可以向它提问，并根据它的回答采取行动。这意味着我们可以通过生活中各个领域的逻辑模型来准确无误地描述世界。而“链接数据”阵营的出现则在一定程度上是对这个观点的挑战。知识也许来自数据共享系统，即使它本身并不能完美地代表这个世界。

　　当然，除非这场各种观点间的混战——网民与网

瑞士物理学家拟10亿欧元打造超级机器预测未来

马上注册！

浏览过的版块