-
维弗雷多·帕累托(Vilfredo Pareto, 1848−1923),福利经济学先驱;乔治·金斯利·齐普夫(George Kingsley Zipf, 1902−1950),计量语言学先驱;德里克·普莱斯(Derek John de Solla Price, 1922−1983),科学计量学之父;赫伯特·亚历山大·西蒙(Herbert Alexander Simon, 1916−2001),人工智能先驱;波努瓦·曼德布罗特(Benoit B. Mandelbrot, 1924−2010),分形之父;艾伯特-拉斯洛·巴拉巴西(Albert-László Barabási, 1967−),当今网络科学研究代表人物、无标度网络概念提出者。如果能够把这些横跨3个世纪、来自不同领域的科学先驱组织在一起召开主题论坛的话,他们讨论甚至争论的主题也许只有一个:幂律分布。本文通过围绕网络科学中的核心概念——无标度网络、幂律分布以及偏好链接机制的“多次重复发现”和“多轮争议”的故事,与读者分享网络科学研究的曲折而又动人的历程。
在科学发展史上,同一个科学发现,以不同的形式、在不同的时间和不同的地点、被不同的科学家重新发现并引起争议的例子屡见不鲜,其中的原因包括:一是由于交流不够广泛,使得不少学术成果难以为更多的研究人员所了解;二是由于认识不够深入,开始以为是不同的东西,逐渐才能揭示出共同的本质。无标度网络无疑属于网络科学过去20年发展中最重要的概念之一,甚至不少人觉得可以把“之一”两字去掉。而无标度网络及其对应的幂律分布和偏好链接的“多次重复发明”和“多轮争议”作为体现科学发展历程的生动例子确实值得一说。
从网络科学的眼光看,这些研究和争议本身就串成了一个网络,本文希望能够让更多的读者体验到这一网络的精彩纷呈。需要事先声明的是,关于无标度网络研究的文献众多,从经验验证到建模、从特征分析到控制等。即使是关于其定义本身的研究也有包括我国学者史定华教授在内的一些学者的工作。本文远非无标度网络研究历史的完整记录,而只是围绕着本文的主题,选取其中我们认为有关联的少数节点加以阐述。
-
自从巴拉巴西小组1999年关于无标度网络的研究以来,过去20年的复杂网络研究在某种程度上患上了“幂律崇拜症”:人们拿到一个实际网络,往往都会首先想到要检验一下网络的度分布是否服从幂律。
今天回过头去看,确实存在不少不严谨的地方。例如,不少文献中都是简单的在双对数坐标图中直接进行最小二乘直线拟合,而不管手中的数据是否确实相对其他分布而言更为符合幂律。
-
2009年,当时在美国圣塔菲研究所从事博士后研究的安然·克洛赛(Aaron Clauset)等人花了4年时间写作的长篇论文“经验数据中的幂律分布(Power-law distributions in empirical data)”终于在国际应用数学顶级期刊《SIAM Review》上发表[41]。
克洛赛认为他们的这篇文章完整解决了幂律分布的检验问题,并在博客文章中把它类比为万能的“魔戒”。文中给出的检验数据是否符合幂律分布的流程如下:
1) 使用极大似然方法估计幂律模型参数;
2) 计算数据和幂律之间的拟合优度,以判定幂律是否为合理假设;
3) 通过似然比检验比较幂律假设和其他分布假设,以判断更倾向于哪个假设。
2018年1月,已经到美国科罗拉多大学任教的克洛赛和他的博士生安娜 ·布罗迪(Anna Brodio)在arXiv上贴出了一篇标题为“无标度网络很少见(Scale-free networks are rare)”的文章[42],文中使用上述幂律检验方法,通过对上千个实际网络数据集的研究发现,其中只有15%的网络,通过了无标度网络的强检验,而43%的网络根本就不能算作无标度网络。
无标度网络毕竟是网络科学中的核心概念,这一研究立即引发圈内学者的关注。
2018年2月,著名科普网站《Quanta Magazine》上发表了一篇题为“实际网络中缺乏幂律证据(Scant evidence of power laws found in real-world networks)”的评论文章[43],介绍了一些圈内学者的看法。
大部分学者觉得这一研究还是有意义的,但是巴拉巴西用一个比喻来反驳克洛赛的工作,“你不能因为现实中一片羽毛和一块石头落下的速度不同,就否定万有引力定律(万有引力定律告诉你自由落体的速度就应该一样),在现实中总是会受到其他因素的干扰,比如空气阻力。”
克洛赛显然不同意这种说法,他说,“如果有1000种物体自由落体,你总能在大部分物体中观察到重力和空气阻力如何共同作用于物体的普遍规律,所谓的干扰因素问题就可以迎刃而解。”
2018年3月,巴拉巴西在其实验室主页上贴出了一篇反驳文章,题为“你所需要的只是爱——克洛赛对无标度网络的无效搜索(Love is all you need—Clauset's fruitless search for scale-free networks)”[44]。
在克洛赛的研究中,对于一个两层的有向网络,是要把它分成两个单独的有向网络,然后对每个有向网络分别计算出度分布、入度分布和视为无向网络的度分布。只有6个度分布中的5个都服从幂律,那么才认为原始的两层有向网络是无标度网络。
巴拉巴西举例说,这相当于把单词Love拆分为如下元素:
{L, o, v, e, Lo, Lv, Le, ov, oe, ve, Lov, Loe, ove, Love}
克洛赛要求其中每个元素都要包含Love,Love才是Love。因此,巴拉巴西认为,在克洛赛的眼中,There is no Love in Love,而在其他人眼中,Love is all you need。
但是,巴拉巴西的这一指责本身也是值得商榷的,因为在克洛赛的文章中也已经指出了,即使对于187个简单网络数据集(每个网络不再有任何拆分),也只有20%的网络可以通过无标度网络的强检验,44%的网络根本不能算作无标度网络。
值得一提的是,克洛赛团队建立了至今为止复杂网络领域的最完整的数据集,包含了好几千个实际网络的数据信息,这也是对网络科学研究的贡献。当然这一数据集还需要改进。数据和算法一样重要,正如imagenet改变了人工智能领域一样,大规模、高质量的复杂网络数据库有助于推动网络科学更上一层楼。
-
2018年7月,克洛赛在第4届国际计算社会科学年度会议报告了他们关于无标度网络很少见的工作。
2018年11月,巴拉巴西领衔的美国东北大学网络科学研究所的DK-Lab实验室主任迪米特里·克里科夫(Dmitri Krioukov)团队在arXiv上贴出了一篇题为“无标度网络没问题(Scale-free networks well done)”的文章,认为无标度网络显然绝非克洛赛他们所指出的那么少[45]。
克里科夫也算得上是一位科学界的“神人”。2012年的时候,克里科夫还在美国加州大学圣迭戈分校(University of California, San Diego)从事研究工作。一个春日,他驾驶着一辆丰田雅力士在上班途中被警察发现没有在停车标记Stop sign前停车,因而收到400美元的罚单。但是克里科夫没有自认倒霉,而是选择了上法庭申诉。
克里科夫的辩护理由是,当时他经过的道路有两条车道,在他的车身较短的丰田雅力士和警察中间还有另外一辆车身较长的车在通行,两辆车几乎同时从停车标记S的地方通过。他以一篇4页纸的物理论文从理论上向法庭证明,在这种环境下,由于另一辆车的遮挡,完全存在自己停了但警察没看到,而被误认为没有停的可能。
克里科夫居然成功胜诉了,而且他的这篇题为“无辜的证明(The proof of innocence)”的论文至今还放在arXiv网站上[46]。当然,后来也有人指出,克里科夫的论证中还是存在瑕疵的,感兴趣的读者可以自行验证。
接下来我们就看看克里科夫团队是如何为无标度网络辩护的,他们做了三件事:
首先,也是最核心的,他们认为要重新给出幂律分布的严格定义。克洛赛团队基于的是幂律分布的理想化的定义,即当k>=kmin时,网络中一个随机选取的节点的度为k的概率服从:
$$ P(k) = c{k^{-r}} $$ 式中,c为归一化常数;r为幂指数。克里科夫团队指出,实际网络的演化过程多样且存在各种噪声和扰动。因此,要求实际网络的度分布服从这一理想化的幂律,就相当于要求在有摩擦力的地面上的运动要完全符合无摩擦力情形的理想化的牛顿运动定律一样。为此,他们提出幂律分布的一个更为实际的定义应该是正规变化分布(regularly varying distribution),其对应的概率密度函数为:
$$ P(k) = I(k){k^{-r}} $$ 式中,I(k)是一个当k趋于无穷大时缓慢变化的函数(数学上,正规变化分布是通过与上式对应的互补累积分布定义)。正规变化分布包含了理想化的幂律分布,并且当k趋于无穷大时两者是一致的。但是,在有限k值的情形下两者可以有很大差异。
其次,克里科夫团队给出了估计正规变化分布的指数的三种具有相容性的方法。他们还强调了采用多种相容性估计方法的重要性,因为不同的估计方法可能只是揭示分布的不同的部分。
最后,他们对115个实际网络数据进行了验证。发现无标度网络的比例要显著高于克洛赛团队的判断。这一结论其实也是自然的,因为克里科夫团队毕竟明显放松了对于幂律分布的要求。
2019年3月,“无标度网络很少见”这篇文章正式在《自然通讯》(Nature Communications)上发表[42]。该刊同时配发了一篇由网络科学学者郝培德(Petter Holme) 撰写的评论“既少见又处处可见:关于无标度网络的观点”(Rare and everywhere: Perspectives on scale-free networks)[47]。
评论认为两种看似截然不同的观点还是有可能调和的。克洛赛研究的是规模有限的实际网络,而克里科夫团队研究的是当网络持续增长趋于无限的情形。此外,绝大多数网络科学学者都认为“知道某个分布是否为长尾要比知道它是否符合幂律重要得多。”
同样是在2019年3月,克里科夫团队成员在国际网络科学会议COMPLENET上介绍了他们关于“无标度网络没问题”的工作。
2019年4月,克劳赛的博士生布罗迪以“无标度网络很少见”作为论文核心内容通过了博士学位论文答辩。
2019年10月,“无标度网络没问题”这篇文章在新创办的开源期刊《Phys. Rev. Research》上发表[45]。至此,这一争议以双方成果都正式发表而暂时告一段落。
Controversial Issues in Researches on Scale-free Networks: An Overview with a Network Perspective
-
摘要: 无标度网络及其相关的幂律度分布、偏好链接机制是网络科学研究中的核心概念。这些概念的研究既有相当长的历史,又存在着至今依然有争议的地方。该文旨在从网络的角度阐述围绕这些概念的研究中的一些重要的历史节点之间的联系,其中包括曾被忽略的普莱斯的奠基性研究工作。该文也将对围绕这些概念的学术争议进行介绍和分析,包括20世纪中叶西蒙和曼德布罗特围绕幂律产生机理的论战,以及近期围绕无标度网络究竟是多还是少的争议。最后,展望了无标度网络的未来研究。Abstract: Scale-free networks and related concepts including power-law distribution and preferential attachment mechanism are core concepts in network science. Researches on these concepts have a long history, but there are still some debates by now. The paper aims at reveal the links among some important historic researches on these concepts from a network perspective, including reveal the fundamental works of Price that had been neglected for a long time. This paper introduces and discusses some controversial issues on these concepts, including quarrels between Simon and Mandelbrot around mechanisms for power law in the middle of 20th century, and recently debates on whether scale-free networks are rich or rare. Finally, the paper discusses future researches on scale-free networks.
-
Key words:
- network science /
- power-law /
- preferential attachment /
- scale-free networks
-
图 1 万维网的度分布和平均距离[1]
图 3 科学文献引用网络的出度和入度分布[13]
图 5 偏好链接机制的随机和优化模型[40]
图 6 两个具有完全相同度分布的网络[49]
-
[1] ALBERT R, JEONG H, BARABÁSI A-L. Diameter of the world-wide web[J]. Nature, 1999, 401(6749): 130-131. doi: 10.1038/43601 [2] 艾伯特-拉斯洛·巴拉巴西. 网络科学[M]. 沈华伟, 黄俊铭, 译. 郑州: 河南科学技术出版社, 2020. BARABÁSI A-L. Network science[M]. Translated by SHEN Hua-wei and HUANG Jun-ming. Zhengzhou: Henan Science and Technology Press, 2020. [3] BARABÁSI A-L, ALBERT R. Emergence of scaling in random networks[J]. Science, 1999, 286(5439): 509-512. doi: 10.1126/science.286.5439.509 [4] WATTS D J, STROGATZ S H. Collective dynamics of ‘small-world’ networks[J]. Nature, 1998, 393(6684): 440-442. doi: 10.1038/30918 [5] FORTUNATO S, BERGSTROM C T, BÖRNER K, et al. Science of science[J]. Science, 2018, 359(6379): eaao01851-eaao01857. [6] ZENG A, SHEN Z, ZHOU J, et al. The science of science: From the perspective of complex systems[J]. Physics Reports, 2017, 714: 1-73. [7] GATES A J, KE Q, VAROL O, et al. Nature’s reach: Narrow work has broad impact[J]. Nature, 2019, 575: 32-34. doi: 10.1038/d41586-019-03308-7 [8] 李约瑟, 王铃, D J 普拉斯, 等. 科学史与科学家介绍——中国的天文钟[J]. 科学通报, 1956(6): 103-104. NEEDHAM J T M, WANG Ling, PRICE D J de S, et al. The introduction of history of science and the scientists: The chronometer of China[J]. Cinese Science Bulletin, 1956(6): 103-104. [9] PRICE D J de S. Science since Babylon[M]. New Haven: Yale University Press, 1961. [10] PRICE D J de S. Little science, big science[M]. Boston, MA: Columbia University Press, 1963. [11] GARFIELD E. In tribute to Derek John de Solla Price: A citation analysis of little science, big sicence[J]. Scientometrics, 1985, 7(3-6): 487-503. doi: 10.1007/BF02017163 [12] WANG Da-shun, BARABÁSI A-L. Science of science[M]. Cambridge: Cambridge University Press, 2020. [13] PRICE D J de S. Networks of scientific papers[J]. Science, 1965, 149: 510-515. doi: 10.1126/science.149.3683.510 [14] PRICE D J de S. A general theory of bibliometric and other cumulative advantage processes[J]. Journal of the American Society for Information Science, 1976, 27(5): 292-306. doi: 10.1002/asi.4630270505 [15] NEWMAN M. Networks: An introduction[M]. Oxford: Oxford University Press, 2010. [16] WATTS D J. Six degrees: The science of a connected age[M]. London: W.W. Norton & Company, 2004. [17] SIMON H A. On a class of skew distribution functions[J]. Biometrika, 1955, 42(3/4): 425-440. doi: 10.2307/2333389 [18] YULE G U. A mathematical theory of evolution, based on the conclusions of Dr. J. C. Willis, F.R.S.[J]. Trans R Soc B, 1924, 213: 21-87. [19] EGGENBERGER F, PÓLYA G. Über die satistik verketteter vorgänge[J]. Zamm‐Journal of Applied Mathematics & Mechanics, 1923, 3(4): 279-289. [20] MITZENMACHER M. A brief history of generative models for power law and lognormal distributions[J]. Internet Mathematics, 2004, 1(2): 226-251. doi: 10.1080/15427951.2004.10129088 [21] FALOUTSOS M, FALOUTSOS P, FALOUTSOS C. On power-law relationships of the internet topology[J]. ACM SIGCOMM Computer Communication Review, 1999, 29(4): 251-262. doi: 10.1145/316194.316229 [22] CARLSON J M, DOYLE J. Highly optimized tolerance: A mechanism for power laws in designed systems[J]. Physical Review E, 1999, 60(2): 1412. doi: 10.1103/PhysRevE.60.1412 [23] FABRIKANT A, KOUTSOUPIAS E, PAPADIMITRIOU C H. Heuristically optimized trade-offs: A new paradigm for power laws in the Internet[C]//International Colloquium on Automata, Languages, and Programming. Berlin: Springer, 2002: 110-122. [24] MANDELBROT B. An informational theory of the statistical structure of language[J]. Communication Theory, 1953, 84: 486-502. [25] ZIPF G K. Human behavior and the principle of least effort: An introduction to human ecology[M]. Boston: Addison-Wesley Press, 1949. [26] 迈克尔·巴蒂. 创造未来城市[M]. 徐蜀辰, 陈珝怡, 译. 北京: 中信出版集团, 2020. BATTY M. Inventing future cities[M]. Translated by XU Shu-chen and CHEN Xu-yi. Beijing: CITIC Press Group, 2020. [27] KRUGMAN P. Confronting the mystery of urban hierarchy[J]. Journal of the Japanese & International Economies, 1996, 10(4): 399-418. [28] PARETO V. The new theories of economics[J]. Journal of Political Economy, 1897, 5(4): 485-502. doi: 10.1086/250454 [29] MANDELBROT B. A note on a class of skew distribution functions: Analysis and critique of a paper by HA Simon[J]. Information and Control, 1959, 2(1): 90-99. doi: 10.1016/S0019-9958(59)90098-1 [30] SIMON H A. Models of my life[M]. Cambridge, Massachusetts: The MIT Press, 1996. [31] MANDELBROT B. The fractalist: Memoir of a scientific maverick[M]. Manhattan: Pantheon Books, 2012. [32] SIMON H A. Some further notes on a class of skew distribution functions[J]. Information and Control, 1960, 3(1): 80-88. doi: 10.1016/S0019-9958(60)90302-8 [33] MANDELBROT B. Final note on a class of skew distribution functions: Analysis and critique of a model due to HA Simon[J]. Information and Control, 1961, 4(2-3): 198-216. doi: 10.1016/S0019-9958(61)80008-9 [34] SIMON H A. Reply to "final note" by Benoit Mandelbrot[J]. Information and Control, 1961, 4(2-3): 217-223. doi: 10.1016/S0019-9958(61)80009-0 [35] MANDELBROT B. Post scriptum to "final note"[J]. Information and Control, 1961, 4(2-3): 300-304. doi: 10.1016/S0019-9958(61)80025-9 [36] SIMON H A. Reply to Dr. Mandelbrot's post scriptum[J]. Inf Control, 1961, 4(2-3): 305-308. doi: 10.1016/S0019-9958(61)80026-0 [37] KORNAI A. Mathematical linguistics[M]. Berlin: Springer Science & Business Media, 2007. [38] KRUGMAN P. The self-organizing economy[M]. Cambridge MA: Blackwell Publishers, 1996. [39] PAPADOPOULOS F, KITSAK M, SERRANO M Á, et al. Popularity versus similarity in growing networks[J]. Nature, 2012, 489(7417): 537-540. doi: 10.1038/nature11459 [40] BARABÁSI A-L. Luck or reason[J]. Nature, 2012, 489(7417): 507-508. doi: 10.1038/nature11486 [41] CLAUSET A, SHALIZI C R, NEWMAN M E J. Power-law distributions in empirical data[J]. SIAM Review, 2009, 51(4): 661-703. doi: 10.1137/070710111 [42] BROIDO A D, CLAUSET A. Scale-free networks are rare[J]. Nature Communications, 2019, 10(1017): 1-10. (arXiv preprint arXiv: 1801.03400, 2018). [43] KLARREICH E. Scant evidence of power laws found in real-world networks[EB/OL]. (2018-02-15). https://www.quantamagazine.org/scant-evidence-of-power-laws-found-in-real-world-networks-20180215/. [44] BARABÁSI A-L. Love is all you need—Clauset's fruitless search for scale-free net works[EB/OL]. (2018-03-06). https://www.barabasilab.com/post/love-is-all-you-need? from=groupmessage&isappinstalled=0. [45] VOITALOV I, VAN D H P, VAN D H R, et al. Scale-free networks well done[J]. Physical Review Research, 2019, 1(3): 033034. (arXiv preprint arXiv: 1811.02071, 2018). [46] KRIOUKOV D. The proof of innocence[EB/OL]. (2012-04-01). https://arxiv.org/abs/1204.0162. [47] HOLME P. Rare and everywhere: Perspectives on scale-free networks[J]. Nature Communications, 2019, 10: 1016. doi: 10.1038/s41467-019-09038-8 [48] STUMPF M P H, PORTER M A. Critical truths about power laws[J]. Science, 2012, 335(6069): 665-666. doi: 10.1126/science.1216142 [49] AMARAl L A N, GUIMERA R. Lies, damned lies and statistics[J]. Nature Physics, 2006, 2(2): 75-76. doi: 10.1038/nphys228 [50] LI T Y, YORKE J A. Period three implies chaos[J]. The American Mathematical Monthly, 1975, 82(10): 985-992. doi: 10.1080/00029890.1975.11994008 [51] SHARKOVSKII A N. Coexistence of cycles of a continuous map of the line into itself[J]. Urain Mat Zh, 1964, 16(1): 61-71.