高斯分布与曼德布罗特分布

2019-3-27 15:51| 发布者: 采编员| 查看: 1086| 评论: 0|原作者: 一只花蛤|来自: 新浪博客

摘要: 文/姚斌纳西姆·塔勒布认为，一个事件要成为极端事件，它不仅要稀有或者疯狂，还必须是出乎意料的，超出我们对可能性的理解，而且还会被欺骗。许多稀有事件会向我们展示它们的样子：我们很难计算它们的可能性，但 ...

文/姚斌

纳西姆·塔勒布认为，一个事件要成为极端事件，它不仅要稀有或者疯狂，还必须是出乎意料的，超出我们对可能性的理解，而且还会被欺骗。许多稀有事件会向我们展示它们的样子：我们很难计算它们的可能性，但很容易对它们发生的概率形成一般概念。当然，随机事件或意外事件也可以解释成功，并且成为赢家通吃结果的原动力。一个人可能完全因为随机的原因而稍稍领先于其他人。

在极端斯坦，没有人是安全的。但是，有一些模型存在一种极为天真的东西。在所有这些模型中，胜者一直是胜者，忽略了随机性。然而，失败者可能一直是失败者，而胜者可能被某个凭空冒出来的人取代，所以没有人是安全的。1957年美国最大的500家公司中，只有74家在40年后仍然位列标普500指数。只有少数公司因为合并而消失，其余的要么衰败，要么破产。大公司像苍蝇一样不断坠落，这个事实真正的原因就在于随机性。

当人们谈论随机性时，通常只看到运气。其实，其他人的运气也非常重要。另一家公司可能有一项突破性的新产品而走运，从而取代了目前的胜者。运气是大均衡器，因为几乎所有人都能从中受益。如果只保护大公司，就会把潜在的新来者扼杀在摇篮中。一切都是暂时的，运气缔造和毁灭了迦太基，运气缔造和毁灭了罗马。随机性是不好的，但并非总是如此。运气甚至比智慧更公平。如果能严格根据能力获得报酬，有可能仍然不公平，因为人们无法选择自己的能力。随机性能够对社会进行洗牌，把那些大人物拉下马。

在极端斯坦，没人是安全的。反过来也一样，也没人受到完全失败的威胁。现在的环境允许小人物在成功的希望前等待时机——活着就有希望。这一思想在克里斯·安德森那里复苏，他是极少数指出分形集中存在随机性的人之一。互联网严重集中。谷歌占据绝对的市场统治地位，历史上没有哪个公司如此迅速地获得如此的统治地位。谷歌能为从尼加拉瓜到蒙古西南部再到美国西海岸的人服务，而不需要考虑电话接线员、运输、送货和制造。这是赢家通吃的终极案例。网络带来的除了集中以外的东西，也催生了大量准谷歌，同时也催生了反谷歌，也就是说，它使拥有某种技术专长的人能够获得小的、稳定的受众群。

安德森的长尾理论在改变人们的成功模式上，具有根本性的作用，它使胜者无法安坐，促成另一个胜者的诞生。它将永远属于极端斯坦，总是被第二类随机性导致的集中所统治，但它将是一个不断变化的极端斯坦。长尾意味着小人物加在一起能够控制文化和商业的一个不小部分，而这得益于在互联网环境下得以存在的小环境和附属专业。但奇怪的是，它也可能意味着大量不公平：大量小人物和极少数超级巨人一起代表世界文化的一部分，一些小人物偶尔崛起打败胜者。这就是“双尾”：小人物构成的大尾和大人物构成的小尾。长尾是极端斯坦的副产品，它在某种程度上减少了不公平：世界对小人物而言没有变得更不公平，但对大人物而言变得极为不公平。没有谁的地位是牢固不破的，小人物非常具有颠覆性。

我们正滑向无序，但不一定是糟糕的无序。也就是说，大部分问题向少部分黑天鹅事件集中，我们将拥有更多和平和稳定的时间。全球化已经发生了，但并不是只带来了好处。它导致全球在互相牵制状态下的脆弱性，同时降低了波动性并制造稳定的假象。换句话说，它创造了毁灭性的黑天鹅事件。金融机构合并为更少的超大机构，几乎所有银行都联为一体。金融生态正膨胀为近亲繁殖的、官僚主义的巨型银行主导的生态（它们通常使用高斯分布进行风险管理）——一损俱损。银行业集中的加剧似乎有减少金融危机的作用，但会使金融危机更具全球性，给我们带来严重的打击。因此我们将面临更少但更严重的危机，事件越稀有，我们越不了解它发生的可能性。金融业没有明显的长尾。假如金融业有不同的生态，可以不时破产，可以迅速被新公司取代，有与网络行业一样的多样化和强韧性，我们的情况就会好得多。

所谓的高斯分布是指，大部分观察结果集中在中等水平附近，也就是平均值附近。随着对平均值的远离，偏离平均值的可能性下降得越来越快（呈指数下降）。传统的高斯方法只关注平均水平，把意外当作附属问题。高斯分布最容易发生错误理解的地方，在于它在尾部事件估计上的脆弱和不足。由于钟形曲线的不确定性计量方法忽视了跳跃性或者不连续变化发生的可能性及影响，因此无法适用于极端斯坦。使用它们，就好像只看见小草，而看不见参天大树。虽然发生不可预测的大离差的可能性很小，但我们不能把它当作意外而置之不理，因为他们的累积影响如此强大。

对于最大值不会与平均值相差太大的变量，高斯方法对我们很有用。如果数量受到向下的拉力或者存在，物理上显示都非常大的数字不会出现，那么我们在平均斯坦。如果存在强大的均衡力量，使得当情况偏离均衡时，会被迅速拉回来，你也可以使用高斯的方法。否则请忘记它。这就是为什么大量经济学研究以均衡概念为基础的原因。平均值总会涵盖两种人，巨人与侏儒，所以两者都不会太罕见，除非在极为稀少的情况下遇到超级巨人或超侏儒。那将是一个偏离单位较大的平均斯坦。事件越稀有，我们对概率估计的错误越大，即使使用高斯方法，也是如此。

有一种法则叫80/20法则，它是一种标志性的幂律。19世纪维尔弗雷多·帕累托观察到，意大利的土地80%的土地被20%的人占有。有人运用这一法则指出80%的工作由20%的人完成；或者80%的工作只产生20%的结果，反之亦然。这一法则后来被约瑟夫·朱兰和其他人概括为帕累托法则（20/80法则），然后进一步概括为帕累托分布的概念。

塔勒布认为，从数学公理上讲，这一法则的表述不一定是最令你吃惊的：它可以很容易地被改称为50/01法则，也就是50%的工作由1%的人完成。它使世界上看上去更加不公平，但这两个法则其实是完全一样的。为什么？假如存在不平均，那么在80/20法则的那20%当中也存在不平均，即极少数人完成大多数工作，其最终结果是大约1%的人都能完成稍稍超过50%的工作。

在平均斯坦中，个体不可能对总体产生影响。高斯变量的随机性可以通过平均来消除。比如，在赌场，当有大量赌徒时，单个赌徒对总体只可能造成微弱的影响。其结果是，对高斯变量平均值的偏离或者误差，不会造成麻烦。它们很小，可以忽略，它们只是在平均值附近作微小的波动。标准差的概念在平均斯坦以外毫无意义，高斯变量之外不存在标准差，即使存在也无关紧要，并且解释不了什么。其钟形曲线只会满足了那些易上当的人最对简化论的需求。还有一些在高斯世界之外没有或者没有重大意义的概念：相关性以及更糟糕的回归。但它们在我们的方法根深蒂固，在商业谈话中不听到“相关性”这个词是很难的。

只需看一看涉及两个极端斯坦变量的历史序列，比如，债券和股市、两只股票的价格，或者房地产价格和股市收益率，计算这些成对变量在不同子期间的相关性，比如1994年、1995年、1996年，等等。计算结果很可能表现出严重的不稳定性，它取决于计算的期间。但人们在讨论相关性时仿佛它是某种真实确定的东西，把它实际化、具体化，赋予它物理属性。误用了高斯方法将带来极大的危害。人们有可能把观察误差当作满足高斯分布来处理，而这要求它必须来自高斯环境，比如平均斯坦。而其实统计学并非“科学”，更多的是一场“智力大骗局”。世界并不存在高斯分布的普遍性，它只是一个思维问题，产生我们认识世界的方式。

以下请注意塔勒布为原始高斯分布或温和随机性的抛硬币游戏的核心假设。

第一核心假设：每次抛硬币都是独立的，硬币没有记忆。前一次得到正面或反面不会影响下一次得到正面或反面的概率。你不会随着时间的推移变成更好的抛硬币手。如果考虑记忆，或者抛硬币的技巧，整个高斯世界都会动摇。

在社会学中，有一个效应叫马太效应，这个效应也称“累积优势”，也就是富人容易变得更富，名人容易变得更有名。这个理论很容易运用于公司、商人、演员、作家和任何从过去的成果中获益的人。还有一个理论叫“偏好依附”。这个理论来自罗伯特·默顿对更具数学科学性质的随机性研究。偏好依附理论的应用无处不在：它能解释为什么城市规模属于极端国度，为什么词汇表中只有少数单词被集中使用，为什么菌群的大小会有巨大差异，等等。

塔勒布认为，无论是累积优势，还是偏好依附，这两种理论都假设今天的成功会增加你在未来成功的可能性，因此概率取决于历史，高斯钟形曲线的第一核心假设在现实中不成立。当然，在游戏中，过去的胜利不会意味着未来胜率的提高，但现实中不是这样，这就是塔勒布对从游戏中学习概率担忧的原因。但是，当胜利带来更多的胜利时，以原始高斯曲线的情况相比，更有可能看到连赢40次的结果。

第二核心假设：没有“疯狂”的跳跃。比如，我们随机步行的步长总是已知的，步长不存在不确定性。我们不会遇到步长剧烈变化的情况。

假如这两条核心假设中有任何一条不满足，你步骤比如抛硬币的累积结果就不会得到钟形曲线。视实际情况，它们可能导致曼德布罗特式的幅度不变的疯狂随机性。分形几何学的创始人伯努瓦·曼德布罗特是塔勒布花了近15年时间才找到的另一位伟大的思想家，他把许多天鹅变成了灰色。曼德布罗特与塔勒布都喜欢研究疯狂随机性和黑天鹅，都认为统计学很无聊。

“分形”一词是曼德布罗特创造的，用来描述不规则和支离破碎的几何图形。分形是几何图形在不同尺度上的重复，显示出越来越小的自相似图形。小的局部在某种程度上与整体具有相似性。比如，树叶的脉络看上去像枝条，枝条看上去像树，岩石看上去像缩小的山峰，当一个物体改变大小时，没有发生质的变化。如果将图形分解为越来越小的图形，永无止境，你会不断看到能够辨认的图形。图形永不重复，但它们互相具有相似性，一种强大的家族相似性。塔勒布将此称之为“曼德布罗特随机性”。他认为可以用曼德布罗特分形理论描述大量的随机性，却不必否认它的精确应用。分形能够充当默认环境、近似和框架。它不能解决黑天鹅问题，也不能把所有黑天鹅现象变为可预测事件，但它极大的淡化的黑天鹅问题，因为它使这些大事件更易于理解。

马克·布坎南的《改变世界的简单法则》、菲利普·鲍尔的《临界点》和保罗·奥默罗德的《为何多数事情归于失败》，这三本书都展现了一个充满幂律的世界。他们指出，许多幂律现象具有普遍性，在各种自然过程和社会群体的行为中有一种奇妙的相似性。他们提出各种网络的理论支持他们的研究，并显示了自然科学中所谓临界现象与社会群体的自我组织之间的联系。他们把产生崩塌的事件的过程、社会传染病和信息瀑布效益联系在一起。普遍性正是物理学家对临界点的幂律问题感兴趣的原因之一。在许多情况下，既包括动态系统理论，也包括统计学模型，变量在临界点附近的许多特征独立于相关动态系统。临界点处的指数对于同一个群体内的许多系统可能是相同的，即使系统的其它方面各不相同。三位作者都建议我们使用统计物理学的方法，并要像躲瘟疫那样躲避使用计量经济学方法和高斯式的非突破性分布。所有的这些塔勒布都赞同。

但是，三位作者要么得出精确的结论，要么鼓吹对精确的追求，因此落入了混淆正向过程与反向过程（问题与方向问题）的陷阱。这是最大的科学和认知错误。他们并不是唯一的；几乎每一个与数据打交道但并不基于这些数据做决策的人都会犯同样的错误，这是又一种叙述谬误。在缺乏反馈过程的情况下，你会认为模型证实了现实。塔勒布同意这三本书的观点，但不同意他们的应用方式，当然也不同意作者赋予它们的精确性。实际上，复杂性理论应该让我们对现实的精确模型持更加怀疑的态度。它不会让所有天鹅变白，这是可以预料的：它把它们变灰，而且只变灰。大部分模型都试图达到精准预测，而不仅限于描述。我们应该避免在对非线性过程进行校准的过程中经常犯的错误。非线性过程比线性过程有更高的自由度，也就是说你更有可能用错模型。

从认知上讲，世界对于自下而上的经验主义者来说是另一个世界。我们只是观察数据，对产生数据的真实过程作出假设，根据进一步信息对方程进行“校准”。随着事件的逐渐展开，我们把看到的与曾期望看到的做比较。发现历史是向前发展而不是向后发展，通常是一个低调的过程，对知道叙述谬误的人来说尤其如此。研究市场中大量存在的、未知的、强大的不确定性，从而理解对心理学、概率论、数学、决策理论甚至统计物理学都适用的随机性的本质我们将看到叙述谬误、游戏谬误和伟大的柏拉图化谬误的各种狡猾表现，看到怎样从表象进入现实。事前假定高斯分布对少数领域是可行的，比如犯罪统计学、死亡率等平均斯坦问题，但对特性不明的历史数据和极端斯坦问题行不通。

我们推断在历史数据中没有看到的事情，但这些事情仍然应当仍然属于概率王国。有一本看不见的畅销书没有在过去的数据中出现过，但你必须考虑到它。它是对一本书或一种药品的投资可能得到历史统计数据显示的更好的回报，但它也可能是股票市场发生比历史上更严重的损失。分形随机性是减少意外事件的一种方式，它使有些黑天鹅变得更明显，使我们意识到它们的影响，把它们变成灰色。但分形随机性不能产生准确的答案，它的好处在于如下几点：如果你知道股市可能崩盘，像美国1987年那样，那么这一事件就不是黑天鹅；如果你使用指数为3的分型分布，1987年的崩盘就不是意外；如果你知道生物科技公司能够研制出一种超级轰动的药物，比历史上的所有药物都很多，那么它就不是黑天鹅，假如这一药物真的出现，你也不会感到意外。

曼德布罗特的分形理论，使我们能够考虑到一些黑天鹅，但不是全部。有些黑天鹅现象发生是因为我们忽视了随机性的来源，有些黑天鹅现象是因为我们高估了分形指数。灰天鹅是可以模型化的极端事件，黑天鹅则是未知的未知。曼德布罗特的方法为我们展现了一线希望，一种思考不确定性问题的方式。如果我们知道那些野生动物在哪里，我们真的会安全许多。塔勒布指出，他宁愿在大的范围内做得正确，而不愿在精确的地方犯错误。

路过

雷人

握手

鲜花

鸡蛋

收藏分享邀请

上一篇：吕昌、周缘：2018年报点评：18年报表靓丽开门红可期上调盈利预测 ...下一篇：茅台的确定性

账号		自动登录	找回密码
密码			注册

高斯分布与曼德布罗特分布

最新评论

相关分类