留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于高考录取成绩的院校竞争网络实证研究

王辰曦 张智成 袁晨 蔡世民

王辰曦, 张智成, 袁晨, 蔡世民. 基于高考录取成绩的院校竞争网络实证研究[J]. 电子科技大学学报, 2022, 51(3): 473-480. doi: 10.12178/1001-0548.2021207
引用本文: 王辰曦, 张智成, 袁晨, 蔡世民. 基于高考录取成绩的院校竞争网络实证研究[J]. 电子科技大学学报, 2022, 51(3): 473-480. doi: 10.12178/1001-0548.2021207
WANG Chenxi, ZHANG Zhicheng, YUAN Chen, CAI Shimin. Empirical Research on College Competition Network Based on the Admission Scores of Colleges in Chinese Gaokao[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(3): 473-480. doi: 10.12178/1001-0548.2021207
Citation: WANG Chenxi, ZHANG Zhicheng, YUAN Chen, CAI Shimin. Empirical Research on College Competition Network Based on the Admission Scores of Colleges in Chinese Gaokao[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(3): 473-480. doi: 10.12178/1001-0548.2021207

基于高考录取成绩的院校竞争网络实证研究

doi: 10.12178/1001-0548.2021207
详细信息
    作者简介:

    王辰曦(1999-),男,主要从事复杂网络方面的研究

    通讯作者: 蔡世民,E-mail:shimincai@uestc.edu.cn
  • 中图分类号: TP391

Empirical Research on College Competition Network Based on the Admission Scores of Colleges in Chinese Gaokao

  • 摘要: 平行志愿录取规则与优质生源的紧缺使得院校在高考招生时存在激烈的竞争关系。从网络科学视角正确理解院校竞争关系,能够合理地指导考生进行志愿填报。利用2019年山西省高考理科录取成绩,通过改进的Jaccard相似度计算方法,构建院校竞争网络的邻接矩阵。基于复杂网络度量方法,实证研究院校竞争网络得到:1) 度分布存在一定的异质性,且具有较大的平均度;2) 簇度负相关表明院校竞争网络存在层次结构;3) 富人俱乐部连通性表明度数大于375的院校完全连通构成富人俱乐部;4) 利用基于节点标签与网络结构的社团划分算法,通过基尼不纯度评估社团内院校的同质性,进一步利用Louvain算法识别社团内院校存在层次化差异结构。这些实证结果刻画了院校竞争关系,在此基础上归纳了一些指导考生进行合理、分梯度志愿填报的建议和策略。
  • 图  1  非0相似度矩阵元素的概率分布

    图  2  竞争网络的累积度分布

    图  3  竞争网络的簇度相关性

    图  4  竞争网络的富人俱乐部连通性

    图  5  竞争网络社团划分

    图  6  社团3划分的子结构1网络

    表  1  竞争网络的基本统计量

    T节点数
    N/个
    连边数
    E/条
    平均度
    $ \langle $k$ \rangle $
    最大度
    kmax
    最小度
    kmin
    平均聚类系数
    $ \langle $C$ \rangle $
    直径
    D
    87771 677163.4646510.797
    下载: 导出CSV

    表  2  全联通的富节点对应的院校

    高校高校高校
    375 湖北科技学院 394 沈阳医学院 415 湖北经济学院
    377 沈阳工程学院 394 海南医学院 431 内蒙古工业大学
    378 哈尔滨医科大学 396 山东第一医科大学 436 新疆医科大学
    380 金陵科技学院 397 湖南农业大学 438 山东建筑大学
    383 嘉兴学院 398 鲁东大学 439 福建中医药大学
    384 浙江中医药大学 399 天津中医药大学 450 潍坊医学院
    384 丽水学院 400 湖北医药学院 456 内蒙古医科大学
    385 黑龙江中医药大学 410 广东海洋大学 465 齐齐哈尔医学院
    下载: 导出CSV

    表  3  基于节点元数据和网络结构的竞争网络社团划分

    社团编号GI值社团规模院校标签类别分布“C9” “985”
    “211” “省部共建” “省属” “其他”
    1022, 0, 0, 0, 0, 0
    20.19898, 1, 0, 0, 0, 0
    30.7113663, 33, 79, 139, 110, 2
    40.4042510, 0, 0, 69, 181, 1
    50.4211160, 0, 0, 35, 81, 0
    60.2131900, 0, 0, 23, 167, 0
    下载: 导出CSV

    表  4  基于Louvain算法的社团3划分

    子结构编号GI值子结构规模院校标签类别分布“C9” “985”
    “211” “省部共建” “省属”“其他”
    10.61693, 30, 30, 5, 1, 0
    20.64720, 3, 35, 23, 10, 1
    30.62820, 0, 13, 33, 36, 0
    40.58480, 0, 3, 22, 22, 1
    50.52950, 0, 2, 51, 41, 1
    下载: 导出CSV
  • [1] WEN J. The historical evolution of enrollment policy for college entrance examination-based on the perspective of historical institutionalism[J]. Journal of Educational Research and Policies, 2020, 2(11): 23-28.
    [2] HUANG J. The educational purpose of the Chinese national college entrance examination[J]. International Journal of New Developments in Education, 2020, 2(6): 59-64.
    [3] LI Y, ZHANG X. Research on the volunteer filling in college entrance examination driven by information technology[J]. Journal of Educational Research and Policies, 2020, 2(6): 88-92.
    [4] WANG J, CHEN Y, HAN D, et al. New college entrance examination selection recommendation system based on fuzzy evaluation matrix[J]. Computer Science and Application, 2020, 10(2): 361-370. doi:  10.12677/CSA.2020.102037
    [5] LI J. Prediction model of college entrance examination score line[J]. World Scientific Research Journal, 2019, 5(12): 203-209.
    [6] WANG Y, LIU Y, LIU L. Research on the impact of intelligent decision-making system for voluntary filling in college entrance examination on senior high school students[C]//Proceedings of 2019 3rd International Conference on Education, Management Science and Economics. [S.1.]: Springer, 2019: 180-183.
    [7] GUO Z. College entrance examination volunteer filing research on related issues[C]//Proceedings of 2019 International Conference on Education, Management, Economics and Humanities. [S.1.]: DEStech, 2019: 28-32.
    [8] 谷进军, 曹东方, 蒋玉国. 高校招生生源竞争的策略[J]. 教育理论与实践, 2005, 25(1): 9-10.

    GU J J, CAO D F, JIANG Y G. Strategy of student source competition of university recruiting students[J]. Theory and Practice of Education, 2005, 25(1): 9-10.
    [9] 于猛, 杨爱民, 尹星. 高校本科生源竞争力的提升策略[J]. 中国石油大学学报 (社会科学版), 2017, 33(2): 98-102.

    YU M, YANG A M, YIN X. The strategies of improving competitiveness of university enrollment[J]. Journal of China University of Petroleum (Edition of Social Sciences), 2017, 33(2): 98-102.
    [10] 黄风. 生源竞争与高校招生策略研究—以闽江学院为例[J]. 郑州铁路职业技术学院学报, 2020, 32(4): 99-101.

    HUANG F. Study on student source competition and college enrollment strategy—Taking Minjiang college as an example[J]. Jouranl of Zhengzhou Railway Vocational and Technical College, 2020, 32(4): 99-101.
    [11] 曹伟, 李笑晨. 波特五力模型应用于高职院校招生竞争力分析的可行性研究[J]. 高教论坛, 2020(10): 68-70. doi:  10.3969/j.issn.1671-9719.2020.10.018

    CAO W, LI X C. Study on the feasibility of Porter's five forces model applied to the analysis of enrollment competitiveness of higher vocational colleges[J]. Higher Education Forum, 2020(10): 68-70. doi:  10.3969/j.issn.1671-9719.2020.10.018
    [12] 阎朝阳. 高校生源竞争与招生宣传策略[J]. 华中农业大学学报(社会科学版), 2002, 43(1): 92-95.

    YAN C Y. Student source competition and recruiting strategy in college enrollment[J]. Journal of Huazhong Agricultural University (Social Sciences Edition), 2002, 43(1): 92-95.
    [13] 孟杰. 新高考背景下高校生源竞争的博弈分析[J]. 高教学刊, 2020, 2020(11): 65-69.

    MENG J. Game model of college student source competition under the reform of college entrance examination[J]. Journal of Higher Educaiton, 2020, 2020(11): 65-69.
    [14] 谢菲, 侍旭. 基于元胞自动机的高校招生竞争演化研究[J]. 南京航空航天大学学报(社会科学版), 2015, 17(1): 29-34.

    XIE F, SHI X. Research on competitive college enrollment based on cellular automata[J]. Journal of Nanjing University of Aeronautics and Astronautics (Social Science), 2015, 17(1): 29-34.
    [15] 周涛, 柏文洁, 汪秉宏, 等. 复杂网络研究综述[J]. 物理, 2005, 34(1): 31-36. doi:  10.3321/j.issn:0379-4148.2005.01.007

    ZHOU T, BAI W J, WANG B H, et al. A brief review of complex networks[J]. Physics, 2005, 34(1): 31-36. doi:  10.3321/j.issn:0379-4148.2005.01.007
    [16] 周涛, 张子柯, 陈关荣, 等. 复杂网络研究的机遇与挑战[J]. 电子科技大学学报, 2014, 43(1): 1-5. doi:  10.3969/j.issn.1001-0548.2014.01.001

    ZHOU T, ZHANG Z K, CHEN G R, et al. The opportunities and challenges of complex netowrks research[J]. Journal of University of Electronic Science and Technology of China, 2014, 43(1): 1-5. doi:  10.3969/j.issn.1001-0548.2014.01.001
    [17] JACCARD P. The distribution of the flora in the alpine zone[J]. New Phytologist, 1912, 11(2): 37-50. doi:  10.1111/j.1469-8137.1912.tb05611.x
    [18] WATTS D J, STROGATZ S H. Collective dynamics of ‘small-world’ networks[J]. Nature, 1998, 393(6684): 440-442. doi:  10.1038/30918
    [19] HOLLAND P W, LEINHARDT S. Transitivity in structural models of small groups[J]. Comparative Group Studies, 1971, 2(2): 107-124. doi:  10.1177/104649647100200201
    [20] ZHOU S, MONDRAGÓN R J. The rich-club phenomenon in the Internet topology[J]. IEEE Communications Letters, 2004, 8(3): 180-182. doi:  10.1109/LCOMM.2004.823426
    [21] GASPARINI M, IZQUIERDO J L C, CLARISÓ R, et al. Analyzing rich-club behavior in open source projects[C]//Proceedings of the 15th International Symposium on Open Collaboration. [S.1.]: ACM, 2019: 1-9.
    [22] 山西省招生考试管理中心. 2019年山西省普通高考成绩分段统计表[EB/OL]. (2019-06-24). http://www.sxkszx.cn/news/2019624/n739951587.html.

    Shanxi Enrollment and Examination Management Center. Statistical table of general college entrance examination scores in 2019 in Shanxi province[EB/OL]. (2019-06-24). http://www.sxkszx.cn/news/2019624/n739951587.html.
    [23] NEWMAN M E J, CLAUSET A. Structure and inference in annotated networks[J]. Nature Communications, 2016, 7(1): 1-11.
    [24] BREIMAN L, FRIEDMAN J, STONE C J, et al. Classification and regression trees[M]. [S.l.]: CRC Press, 1984.
    [25] LERMAN R I, YITZHAKI S. A note on the calculation and interpretation of the Gini index[J]. Economics Letters, 1984, 15(3-4): 363-368. doi:  10.1016/0165-1765(84)90126-5
    [26] BLONDEL V, GUILLAUME J L, LAMBIOTTE R, et al. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics:Theory and Experiment, 2008(10): P10008.
  • [1] 邢玲, 邓凯凯, 吴红海, 谢萍.  复杂网络视角下跨社交网络用户身份识别研究综述 . 电子科技大学学报, 2020, 49(6): 905-917. doi: 10.12178/1001-0548.2019182
    [2] 赵紫娟, 李小珂, 郭强, 杨凯, 刘建国.  基于LDA的复杂网络整体研究态势主题分析 . 电子科技大学学报, 2019, 48(6): 931-938. doi: 10.3969/j.issn.1001-0548.2019.06.019
    [3] 邵鹏, 胡平.  复杂网络特殊用户对群体观点演化的影响 . 电子科技大学学报, 2019, 48(4): 604-612. doi: 10.3969/j.issn.1001-0548.2019.04.019
    [4] 任宏菲, 肖婧, 崔文阔, 许小可.  基于零模型的社区检测基准网络构造及应用 . 电子科技大学学报, 2019, 48(3): 440-448. doi: 10.3969/j.issn.1001-0548.2019.03.021
    [5] 吴宗柠, 樊瑛.  复杂网络视角下国际贸易研究综述 . 电子科技大学学报, 2018, 47(3): 469-480. doi: 10.3969/j.issn.1001-0548.2018.03.023
    [6] 王菊, 刘付显.  一种面向动态网络的社团检测与演化分析方法 . 电子科技大学学报, 2018, 47(1): 117-124. doi: 10.3969/j.issn.1001-0548.2018.01.018
    [7] 顾亦然, 朱梓嫣.  基于LeaderRank和节点相似度的复杂网络重要节点排序算法 . 电子科技大学学报, 2017, 46(2): 441-448. doi: 10.3969/j.issn.1001-0548.2017.02.020
    [8] 苟智坚, 范明钰, 王光卫.  复杂网络中无信任边界限制的连续观点演化研究 . 电子科技大学学报, 2015, 44(5): 749-756. doi: 10.3969/j.issn.1001-0548.2015.05.019
    [9] 汤蓉, 唐常杰, 徐开阔, 杨宁.  基于局部聚合的复杂网络自动聚簇算法 . 电子科技大学学报, 2014, 43(3): 329-335. doi: 10.3969/j.issn.1001-0548.2014.03.002
    [10] 周涛, 张子柯, 陈关荣, 汪小帆, 史定华, 狄增如, 樊瑛, 方锦清, 韩筱璞, 刘建国, 刘润然, 刘宗华, 陆君安, 吕金虎, 吕琳媛, 荣智海, 汪秉宏, 许小可, 章忠志.  复杂网络研究的机遇与挑战 . 电子科技大学学报, 2014, 43(1): 1-5. doi: 10.3969/j.issn.1001-0548.2014.01.001
    [11] 刘瑶, 王瑞锦, 刘峤, 秦志光.  动态社会网络的社团结构检测与分析 . 电子科技大学学报, 2014, 43(5): 724-729. doi: 10.3969/j.issn.1001-0548.2014.05.016
    [12] 唐雪飞, 杨陈皓, 牛新征.  复杂网络链路危险度预测模型研究 . 电子科技大学学报, 2013, 42(3): 442-447. doi: 10.3969/j.issn.1001-0548.2013.03.024
    [13] 王伟, 杨慧, 龚凯, 唐明, 都永海.  复杂网络上的局域免疫研究 . 电子科技大学学报, 2013, 42(6): 817-830.
    [14] 张昌利, 龚建国, 闫茂德.  基于复杂网络的社会化标签语义相似度分析 . 电子科技大学学报, 2012, 41(5): 642-648. doi: 10.3969/j.issn.1001-0548.2012.05.001
    [15] 陈娟, 陆君安.  复杂网络中尺度研究揭开网络同步化过程 . 电子科技大学学报, 2012, 41(1): 8-16. doi: 10.3969/j.issn.1001-0548.2012.01.002
    [16] 张聪, 沈惠璋.  网络自然密度社团结构模块度函数 . 电子科技大学学报, 2012, 41(2): 185-191. doi: 10.3969/j.issn.1001-0548.2012.02.003
    [17] 张昊, 陈超, 王长春.  基于空穴理论的复杂网络传染病传播控制 . 电子科技大学学报, 2011, 40(4): 491-496.
    [18] 谢福鼎, 张大为, 黄丹, 张永, 孙岩.  寻找复杂网络社团的稠密集算法 . 电子科技大学学报, 2011, 40(4): 483-490. doi: 10.3969/j.issn.1001-0548.2011.04.001
    [19] 吕琳媛.  复杂网络链路预测 . 电子科技大学学报, 2010, 39(5): 651-661. doi: 10.3969/j.issn.1001-0548.2010.05.002
    [20] 汪小帆, 刘亚冰.  复杂网络中的社团结构算法综述 . 电子科技大学学报, 2009, 38(5): 537-543. doi: 10.3969/j.issn.1001-0548.2009.05.007
  • 加载中
图(6) / 表(4)
计量
  • 文章访问数:  5411
  • HTML全文浏览量:  2345
  • PDF下载量:  46
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-05-25
  • 修回日期:  2021-10-11
  • 录用日期:  2022-03-23
  • 刊出日期:  2022-05-25

基于高考录取成绩的院校竞争网络实证研究

doi: 10.12178/1001-0548.2021207
    作者简介:

    王辰曦(1999-),男,主要从事复杂网络方面的研究

    通讯作者: 蔡世民,E-mail:shimincai@uestc.edu.cn
  • 中图分类号: TP391

摘要: 平行志愿录取规则与优质生源的紧缺使得院校在高考招生时存在激烈的竞争关系。从网络科学视角正确理解院校竞争关系,能够合理地指导考生进行志愿填报。利用2019年山西省高考理科录取成绩,通过改进的Jaccard相似度计算方法,构建院校竞争网络的邻接矩阵。基于复杂网络度量方法,实证研究院校竞争网络得到:1) 度分布存在一定的异质性,且具有较大的平均度;2) 簇度负相关表明院校竞争网络存在层次结构;3) 富人俱乐部连通性表明度数大于375的院校完全连通构成富人俱乐部;4) 利用基于节点标签与网络结构的社团划分算法,通过基尼不纯度评估社团内院校的同质性,进一步利用Louvain算法识别社团内院校存在层次化差异结构。这些实证结果刻画了院校竞争关系,在此基础上归纳了一些指导考生进行合理、分梯度志愿填报的建议和策略。

English Abstract

王辰曦, 张智成, 袁晨, 蔡世民. 基于高考录取成绩的院校竞争网络实证研究[J]. 电子科技大学学报, 2022, 51(3): 473-480. doi: 10.12178/1001-0548.2021207
引用本文: 王辰曦, 张智成, 袁晨, 蔡世民. 基于高考录取成绩的院校竞争网络实证研究[J]. 电子科技大学学报, 2022, 51(3): 473-480. doi: 10.12178/1001-0548.2021207
WANG Chenxi, ZHANG Zhicheng, YUAN Chen, CAI Shimin. Empirical Research on College Competition Network Based on the Admission Scores of Colleges in Chinese Gaokao[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(3): 473-480. doi: 10.12178/1001-0548.2021207
Citation: WANG Chenxi, ZHANG Zhicheng, YUAN Chen, CAI Shimin. Empirical Research on College Competition Network Based on the Admission Scores of Colleges in Chinese Gaokao[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(3): 473-480. doi: 10.12178/1001-0548.2021207
  • 高考招生录取制度采取平行志愿录取规则[1-2],优质生源的稀缺性加剧了不同院校对同一批次生源的争夺,形成院校竞争关系(简称竞争关系)。同时,考生在填报志愿时,通常会依据“C9”“985”“211”“双一流”“省部共建”等高校建设项目来区分院校的教育水平和实力差距,使竞争关系存在层次性。然而,在志愿填报策略分析中,竞争关系的定量化研究普遍未考虑这些因素[3-6]。因此,采用适当的定量分析方法研究竞争关系,有助于正确理解其内在结构特征与形成机制,对指导考生进行合理、分梯度地志愿填报起到重要启示作用[7]

    针对竞争关系这一问题,有学者分析了院校竞争力的影响因素,提出提升院校竞争力的方法[8-14]。如文献[11]基于波特五力模型提出的“竞争三力和影响二力”模型。文献[13]基于博弈论构建生源竞争的博弈模型,提出了正当提升竞争关系的方法;文献[14]基于元胞自动机进行建模仿真,得到了院校核心竞争力及附加条件对优质生源竞争力的影响。

    网络科学是研究复杂网络系统规律的交叉科学[15-16]。从网络科学视角,院校及其竞争关系可以抽象地表示为院校竞争网络(简称竞争网络)。本文基于复杂网络度量方法,对竞争网络进行实证研究,定量分析拓扑结构特征,挖掘一般的网络统计特征与中尺度的社团结构特征。并利用2019年山西省高考录取成绩,基于改进的Jaccard相似度计算方法,计算院校之间录取成绩的相似性,定量表示竞争关系强度。

    • 本文使用2019年山西省高考理科录取成绩,所选数据覆盖了山西省1A、1B、2A和2B批次的院校,总计877个数据项。1A、1B对应本科第一批次,2A、2B对应本科第二批次,两个批次的分数线分别为507分与432分。

      每个数据项中除了院校名称外,还包含该院校在当前批次的(录取)最高分和最低分,以及院校标签,如“C9”“985”“211”“省部共建”“省属”与“其他”。具体而言,“C9”包括9所院校及单独招生的医学院,共13个数据项。“985”共34个数据项。“211”共82个数据项。“省部共建”共260个数据项。“省属”共485个数据项。其余少部分、较特殊的院校将其标签设为“其他”,共3个数据项。值得注意的是,部分院校存在多重院校标签,本文按照院校标签表示的教育水平层次等级,一般优先考虑高等级。同时,部分省部共建或省属院校会分专业在不同批次进行招生,本文将其视作两个不同的数据项进行分析。

    • 竞争关系可以通过计算院校之间录取成绩的相似性度量。本文选择改进的Jaccard相似度实现相似性计算。Jaccard相似度[17]用于比较有限样本集${\boldsymbol{ A}} $$ {\boldsymbol{B}} $之间的相似性与差异性,Jaccard系数值越大,样本相似度越高,即:

      $$ {{J}}\left( {{\boldsymbol{A}},{\boldsymbol{B}}} \right) = \frac{{\left| {{\boldsymbol{A}} \cap {\boldsymbol{B}}} \right|}}{{\left| {{\boldsymbol{A}} \cup \boldsymbol{B}} \right|}} $$ (1)

      本文根据院校录取数据的特殊性质改进Jaccard相似度。在每一项数据中,高校的最高分和最低分组成分数区间。两个院校的分数区间,存在有交集和无交集两种情况。前者可按照交集长度与并集长度之比表示院校之间的相似性度量:

      $$ {{J}}\left( {{\boldsymbol{A}},{\boldsymbol{B}}} \right) = \left\{ \begin{array}{l} \begin{array}{*{20}{c}} \qquad \,\, 0 \qquad \qquad \,\,\,\, {{{{X}}_{{i}}} \cap {{{X}}_{{j}}} = \varnothing } \end{array}\\ \begin{array}{*{20}{c}} {\dfrac{{{\rm{len}}( {{{{X}}_{{i}}} \cap {{{X}}_{{j}}}} )}}{{{\rm{len}}( {{{{X}}_{{i}}} \cup {{{X}}_{{j}}}} )}}} \qquad {{{{X}}_{{i}}} \cap {{{X}}_{{j}}} \ne \varnothing } \end{array} \end{array} \right. $$ (2)

      式中,$ {\rm{len}}(·) $表示集合的长度;$ {{{X}}_{{i}}} $表示院校${{ i}} $的分数区间;$ {\rm{len}}\left( {{X_i}} \right) = {s_{{i_{{\rm{top}}}}}} - {s_{{i_{{\rm{bottom}}}}}} $,其中$ {s_{{i_{{\rm{top}}}}}} $$ {s_{{i_{{\rm{bottom}}}}}} $分别表示$ {{{X}}_{{i}}} $的最高分和最低分。因此,改进的Jaccard相似度可以表示为:

      $$ {{J}}\left( {{\boldsymbol{A}},{\boldsymbol{B}}} \right) = \left\{ \begin{gathered} {\text{ }} \qquad \qquad \qquad 0 \qquad \qquad \qquad \qquad \qquad \qquad {\text{ }}{{{X}}_{{i}}} \cap {{{X}}_{{j}}} = \varnothing \hfill \\ \frac{{\min ( {{{{s}}_{{{{i}}_{{\rm{top}}}}}},{{{s}}_{{{{j}}_{{\rm{top}}}}}}} )-\max ( {{{{s}}_{{{{i}}_{{\rm{bottom}}}}}},{{{s}}_{{{{j}}_{{\rm{bottom}}}}}}} ){\text{ + }}1}}{{\max ( {{{{s}}_{{{{i}}_{{\rm{top}}}}}},{{{s}}_{{{{j}}_{{\rm{top}}}}}}} )-\min ( {{{{s}}_{{{{i}}_{{\rm{bottom}}}}}},{{{s}}_{{{{j}}_{{\rm{bottom}}}}}}} ){\text{ + }}1}} \qquad {\text{ }}{{{X}}_{{i}}} \cap {{{X}}_{{j}}} \ne \varnothing \hfill \\ \end{gathered} \right. $$ (3)

      $ {{J}}\left( {{\boldsymbol{A}},{\boldsymbol{B}}} \right) $度量竞争关系强度,令$ {{J}}\left( {{\boldsymbol{A}},{\boldsymbol{B}}} \right){\text{ = }} {{{w}}_{{{ij}}}} = {{{w}}_{{{ji}}}} $。通过遍历每对院校,利用改进Jaccard相似度度量方法,得到表示竞争关系的相似度矩阵$ {\boldsymbol{W}} $

    • 通过将竞争关系的相似度矩阵转换成邻接矩阵,实现竞争网络的构建。通过统计分析,81.6%的相似度矩阵元素是0。图1给出非0相似度矩阵元素的概率分布,呈现中间高两端低的分布,与瑞利(Rayleigh)拟合的函数曲线相符,说明其偏离正态分布。

      图  1  非0相似度矩阵元素的概率分布

      由此可见,竞争关系的相似度矩阵具有稀疏性。设定划分阈值为0,将相似度矩阵转换成表示竞争网络的邻接矩阵。邻接矩阵中的一个元素为1表示竞争网络中两个节点之间有连边。显然,竞争网络是一个简化的无向、无权网络。表1给出了竞争网络的基本统计量。

      表 1  竞争网络的基本统计量

      T节点数
      N/个
      连边数
      E/条
      平均度
      $ \langle $k$ \rangle $
      最大度
      kmax
      最小度
      kmin
      平均聚类系数
      $ \langle $C$ \rangle $
      直径
      D
      87771 677163.4646510.797

      表1所示,竞争网络的平均度相对较高,主要原因是录取分数较低的院校(简称底部院校)数量较多,而且它们的专业差异性较大。这些底部院校的分数区间较大,使得它们之间的相似度较高,连接较为紧密。如最大度节点是齐齐哈尔医学院,度数达到了465。该院校的特点是录取专业差异性较大,应用心理学专业录取分数高达496分,健康服务与管理专业录取分数却只有430分。它的分数区间几乎涵盖了本科第二批次招生院校的最大分数区间(即是本科第一批次线与第二批次线的差值)。这些度数大的节点导致竞争网络的平均度较大。因此,考生在填报志愿时,在服从专业调剂条件下可以选择这些度数大的节点作为备选,增加录取概率。同时,院校之间的紧密连接使得竞争网络的平均聚类系数很高,达到0.79。这一结果表明院校之间倾向于构成社团,即竞争网络可能存在显著的社团结构[18-19]

      除了上述复杂网络的基本统计量,本文还从累积度分布、层次结构与富人俱乐部(rich-club)[20-21]3个方面对竞争网络的统计特征进行实证研究。累积度分布${{ P}}\left({{ k}} \right) $表示度数不小于$ {{k}} $的节点在整个网络中所占的比例,$ {{P}}\left( {{k}} \right) = \displaystyle \sum\limits_{{{k}}' \geqslant {{k}}}^\infty {{{P}}\left( {{{k}}'} \right)} $。它可以清晰刻画竞争网络的异质性特征。层次结构可以用簇度相关性表征。度为$ {{{k}}_{{i}}} $的节点$ {{i}} $的聚类系数$ {{{C}}_{{i}}} $定义为$ {C_i} = {{2{E_i}} \mathord{\left/ {\vphantom {{2{E_i}} {{k_i}\left( {{k_i} - 1} \right)}}} \right. } {{{{k}}_{{i}}}\left( {{{{k}}_{{i}}} - 1} \right)}} $,其中$ {{{E}}_{{i}}} $是节点${{ i}} $$ {{{k}}_{{i}}} $个邻节点之间实际存在的边数,即节点$ i $$ {{{k}}_{{i}}} $个邻节点之间实际存在的邻居对的数目。$ {{k}} $度节点的平均聚类系数(簇度相关性)为:

      $${C}({k})=\sum_{j=\left\{i \mid k_{i}=k\right\}} C_{i} / {N}_{{k}}$$ (4)

      式中,$ {{{N}}_{{k}}} $是度数为$ {{k}} $的节点个数。在竞争网络中,底部院校的部分节点拥有大量的边,这些节点称为富节点(rich nodes)。它们倾向于相互连接,构成富人俱乐部。该统计特征可通过富人俱乐部连通性$\mathit{\Phi} \left( r/N \right)$刻画。$\mathit{\Phi} \left( r/N \right)$表示竞争网络中前$ {{r}} $个度最大的节点之间,实际存在的边数$ {{L}} $与这${{ r}} $个节点之间总的可能存在的边数$r(r - 1)/2$的比值[20-21]

      $$ \mathit{\Phi} \left( r/N \right) = \frac{{2{{L}}}}{{{{r}}\left( {{{r}} - 1} \right)}} $$ (5)
    • 竞争网络的累计度分布如图2所示,其中,虚线指示节点度数为100,内嵌子图是基于一分一段表的累计人数变化,其中的虚线指示本科第一批次的分数线,右边表示高分段,左边表示低分段。竞争网络中度数超过100的节点数量开始变多,度数小于100的节点数量很少。实证结果表明竞争网络具有一定的异质性特征,反映底部院校的高聚集性及它们之间激烈的竞争关系。竞争网络的异质性特征主要由不同高考成绩的考生数量分布异质性决定。如图2中内嵌子图所示,基于一分一段表[22]的累计人数变化表明,最高分与本科第一批次之间(简称高分段,虚线右边部分)的考生数量(约3.2万)要远少于本科第一批次与本科第二批次之间(简称低分段,虚线左边部分)的考生数量(约5.4万),且其分布也具有明显的异质性特征。

      图  2  竞争网络的累积度分布

      累计度分布的异质性表明大量低分段的考生在填报志愿时选择底部院校,在院校招生人数限定的条件下,他们考虑专业差异性,使得对院校具有偏好选择。他们的偏好选择容易加大底部院校的分数区间,形成较强的连接紧密性(即形成高的相似度),加剧它们之间的竞争关系,引起院校最低录取分的剧烈波动。同时,少量高分段的考生填报志愿时,基于一分一段表排名选择顶部院校(如C9、985、211院校),使得它们的分数区间较小,形成较弱的连接紧密性。由于底部院校最低录取分波动幅度大,导致低分段考生更容易由于目标院校的最低录取分大幅上升而掉档,同时也更有机会被最低录取分大幅下降的院校录取,所以建议低分段考生增加填报少数往年录取分高于自身分数的院校。

      竞争网络的簇度相关性如图3所示。竞争网络中节点度数越大,聚类系数呈现逐渐减小的趋势。簇度负相关性表明竞争网络存在层次结构。相对而言,大部分度数小的节点(如度数小于100)能够更好地聚类,一般是录取成绩较高的优秀院校,如985、211院校等;度数较大的节点(如度数大于400)之间连接并不紧密,往往聚类效果相对偏弱。然而,竞争网络的高聚类性与层次结构,表明院校倾向于构成层次社团结构,本文将着重对竞争网络的社团结构进行分析。

      图  3  竞争网络的簇度相关性

      竞争网络的富人俱乐部连通性如图4所示。具体而言,当$r/N = 7.3\%$时,$\mathit{\Phi} \left( r/N \right)$非常接近于1,表明竞争网络存在富人俱乐部特征。特别是,当$r/N \leqslant 2.8\%$时,$\mathit{\Phi} \left( r/N \right) = 1$表示度数在前2.8%的富节点形成的子图可以构成一个完全联通图。这个度数阈值为375,即度数大于375的节点均为竞争网络的富节点。表2列出竞争网络中富节点对应的院校,其平均度406.8。值得注意的是,富节点之间相互连接紧密,但是其连接的其余节点之间没有连边(即是富节点与其余节点没有形成闭环),使得富节点的聚类系数相对不高。它们聚类系数波动在0.4~0.5之间。

      图  4  竞争网络的富人俱乐部连通性

      表 2  全联通的富节点对应的院校

      高校高校高校
      375 湖北科技学院 394 沈阳医学院 415 湖北经济学院
      377 沈阳工程学院 394 海南医学院 431 内蒙古工业大学
      378 哈尔滨医科大学 396 山东第一医科大学 436 新疆医科大学
      380 金陵科技学院 397 湖南农业大学 438 山东建筑大学
      383 嘉兴学院 398 鲁东大学 439 福建中医药大学
      384 浙江中医药大学 399 天津中医药大学 450 潍坊医学院
      384 丽水学院 400 湖北医药学院 456 内蒙古医科大学
      385 黑龙江中医药大学 410 广东海洋大学 465 齐齐哈尔医学院

      表2可知,富节点中超过50%是医科类院校。它们的分数区间较大,区间长度均超过40,且均处于440~500分数区间(低分段)附近。由于属于低分段,这些医科类院校在招生时,它们的专业相似度高、专业之间分差跨度大。这一特征导致报考其中某一院校的学生分数差距较大,且这些同类型院校的分数区间重叠较大,使得它们的竞争关系变得更加剧烈,容易演变成富节点,形成竞争网络的富人俱乐部特征。因此,考生填报平行志愿时,应该适当回避这类院校,避免在平行志愿中重叠填报。

    • 竞争网络的中尺度如社团结构分析,能够帮助考生深入地理解在不同层级院校招生时的竞争关系。本文基于节点元数据(如院校标签),利用文献[23]提出的网络社团结构推断方法,对竞争网络进行社区划分。假定一个具有$ {{N}} $个节点与$ {{M}} $个社团的竞争网络,节点的标记${{u}} \in \left\{ {1,2, \cdots ,{{N}}} \right\}$, 社团的标记$ {{{s}}_{{u}}} \in \left\{ {1,2, \cdots ,{{M}}} \right\} $。院校标签类别数量是$ {{K}} = 6 $的离散值,分别表示“C9”“985”“211”“省部共建”“省属”与“其他”,使得节点$ {{u}} $的元数据标记$ {{{\chi}} _{{u}}} \in \left\{ {1,2, \cdots ,{{K}}} \right\} $。定义具有元数据$ {{{\chi}} _{{i}}} $的节点${{ i}} $划分到社团$ {{{s}}_{{i}}} $的概率为$ {{\boldsymbol{\gamma}} _{{\boldsymbol{sx}}}} $,社团之间存在连边的概率为${{{\theta}} _{{{st}}}} = {{{\theta}} _{{{ts}}}}$。因此,竞争网络的概率生成模型可以表示为[23]

      $$ {{P}}\left( {{ {\boldsymbol{A}}}\left| {{\boldsymbol{\varTheta}} ,{\boldsymbol{\varGamma}} ,{ {\boldsymbol{X}}}} \right.} \right) = \sum\limits_{\boldsymbol{S}} {{{P}}\left( {{ {\boldsymbol{A}}}\left| {{\boldsymbol{\varTheta}} ,{\boldsymbol{S}}} \right.} \right){{P}}\left( {{\boldsymbol{S}}\left| {{\boldsymbol{\varGamma}} ,{ {\boldsymbol{X}}}} \right.} \right)} $$ (6)

      式中,$ { {\boldsymbol{A}}} $表示一个$ {{N}} \times {{N}} $对称矩阵,表征竞争网络的邻接矩阵;$ { {\boldsymbol{X}}} $表示一个$ {{N}} \times {{K}} $矩阵,表征节点标记的元数据;$ \boldsymbol{\varTheta } $表示一个$ {{M}} \times {{M}} $对称矩阵,包含参数${{{\theta}} }_{{{st}}};\boldsymbol{\varGamma }$表示一个$ {{M}} \times {{K}} $矩阵,包含参数$ {{\boldsymbol{\gamma}} }_{{\boldsymbol{sx}}} $$ {\boldsymbol{S}} $是一个$ {{N}} \times {{M}} $矩阵,表征节点被分配的社团结构。将式(6)进行对数化,应用Jensen不等式,将其表达式变换为:

      $$ \begin{split} & \log {{P}}\left( {{\boldsymbol A}\left| {{\boldsymbol{\varTheta }},{\boldsymbol{\varGamma}} ,{\boldsymbol X}} \right.} \right) \geqslant \sum\limits_{\boldsymbol{S}} {{{q}}\left( {\boldsymbol{S}} \right)\log \frac{{{{P}}\left( {{\boldsymbol A}\left| {{\boldsymbol{\varTheta}} ,{\boldsymbol{S}}} \right.} \right){{P}}\left( {{\boldsymbol{S}}\left| {{\boldsymbol{\varGamma}} ,{\boldsymbol {X}}} \right.} \right)}}{{{{q}}\left( {\boldsymbol{S}} \right)}}} = \hfill \\& \;\;\;\;\;\;\;\;\;\;\;\;\;\sum\limits_{\boldsymbol{S}} {{{q}}\left( {\boldsymbol{S}} \right)\log {{P}}\left( {{\boldsymbol A}\left| {{\boldsymbol{\varTheta}} ,{\boldsymbol{S}}} \right.} \right)} + \sum\limits_{\boldsymbol{S}} {{{q}}\left( {\boldsymbol{S}} \right){{P}}\left( {{\boldsymbol{S}}\left| {{\boldsymbol{\varGamma}} ,{\boldsymbol X}} \right.} \right)} -\\& \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\sum\limits_{\boldsymbol{S}} {{{q}}\left( {\boldsymbol{S}} \right)\log {{q}}\left( {\boldsymbol{S}} \right)} \\[-15pt]& \end{split}$$ (7)

      式中,$ {{q}}\left( {\boldsymbol{S}} \right) $表示任意节点分配到不同社团的概率分布,满足$\displaystyle \sum\limits_{\boldsymbol{S}} {{{q}}\left( {\boldsymbol{S}} \right)} = 1$。在满足${{q}}\left( {\boldsymbol{S}} \right) = $$\dfrac{{{{P}}\left( {{\boldsymbol A}\left| {{\boldsymbol{\varTheta}} ,{\boldsymbol{S}}} \right.} \right){{P}}\left( {{\boldsymbol{S}}\left| {{\boldsymbol{\varGamma }},{\boldsymbol X}} \right.} \right)}}{{\displaystyle \sum\limits_{\boldsymbol{S}} {{{P}}\left( {{\boldsymbol A}\left| {{\boldsymbol{\varTheta}} ,{\boldsymbol{S}}} \right.} \right){{P}}\left( {{\boldsymbol{S}}\left| {{\boldsymbol{\varGamma}} ,{\boldsymbol X}} \right.} \right)} }}$时,式(7)式右端取得最大值[24]。因此,在给定连接矩阵$ {\boldsymbol A} $,节点元数据$ {\boldsymbol X} $与划分的社团数量$ M $,本文可以利用期望最大化算法,结合式(7)进行参数估计及社团结构划分:1) 对$ {\boldsymbol{\varTheta }}$${\boldsymbol{ \varGamma}} $进行随机初始化,计算$ {{q}}\left( {\boldsymbol{S}} \right) $;2) 固定$ {{q}}\left( {\boldsymbol{S}} \right) $,最大化不等式(7);3) 重复步骤1)和2),直到$ {\boldsymbol{\varTheta }}$$ {\boldsymbol{\varGamma}} $收敛稳定时,${{q}}\left( {\boldsymbol{S}} \right) = $$\dfrac{{{{P}}\left( {{\boldsymbol A}\left| {{\boldsymbol{\varTheta}} ,{\boldsymbol{S}}} \right.} \right){\boldsymbol{P}}\left( {{\boldsymbol{S}}\left| {{\boldsymbol{\varGamma}} ,{\boldsymbol X}} \right.} \right)}}{{\displaystyle \sum\limits_{\boldsymbol{S}} {{{P}}\left( {{\boldsymbol A}\left| {{\boldsymbol{\varTheta}} ,{\boldsymbol{S}}} \right.} \right){\boldsymbol{P}}\left( {{\boldsymbol{S}}\left| {{\boldsymbol{\varGamma}} ,{\boldsymbol X}} \right.} \right)} }}$=$\dfrac{{{{P}}\left( {{\boldsymbol A},{\boldsymbol{S}}\left| {{\boldsymbol{\varTheta}} ,{\boldsymbol{\varGamma}} ,{\boldsymbol X}} \right.} \right)}}{{{{P}}\left( {{\boldsymbol A}\left| {{\boldsymbol{\varTheta}} ,{\boldsymbol{\varGamma}} ,{\boldsymbol X}} \right.} \right)}}$=${{P}}( {\boldsymbol{S}}\left| {\boldsymbol A},{\boldsymbol{\varTheta}} , {\boldsymbol{\varGamma}} , $$ {\boldsymbol X} \right. )$,表示$ {{q}}\left( {\boldsymbol{S}} \right) $等价于竞争网络的社团结构最优化划分的后验概率${{P}}\left( {{\boldsymbol{S}}\left| {{\boldsymbol A},{\boldsymbol{\varTheta }},{\boldsymbol{\varGamma}} ,{ {\boldsymbol{X}}}} \right.} \right)$;4) 通过得到已收敛的$ {{q}}\left( {\boldsymbol{S}} \right) $,获取任意节点分配到不同社团的概率,选取最大概率对应的社团作为该节点的所属社团,在此基础上得到竞争网络的(非重叠)社团结构划分。

      同时,社团内节点元数据并不完全一致,导致社团内院校可能存在一定的层次化差异。本文采用基尼不纯度(Gini impurity, GI)来衡量社团内院校的层次化差异[25]。假设$ p\left( \chi \right) $表示标记元数据$ \chi $的节点在社团$\boldsymbol{s}$中出现的概率(或归一化频次),则该社团的基尼不纯度定义为:

      $${\rm{ GI}}\left( {\boldsymbol{s}} \right) = \sum\limits_{{\boldsymbol{\chi}} \in \left\{ {1,2, \cdots ,{{K}}} \right\}} {{{p}}\left( {{\chi}} \right)\left( {1 - {{p}}\left( {{\chi}} \right)} \right)} $$ (8)

      GI取值越大,表明社团内院校具有不同标签的混乱程度越高,存在较为明显的层次化差异。通过预定划分竞争网络的社团数量$ {{M}} = 6 $(与标签类别数量一致),利用上述算法得到竞争网络的社团结构,如每个社团的GI值、规模、代表院校等,如表3所示。

      表 3  基于节点元数据和网络结构的竞争网络社团划分

      社团编号GI值社团规模院校标签类别分布“C9” “985”
      “211” “省部共建” “省属” “其他”
      1022, 0, 0, 0, 0, 0
      20.19898, 1, 0, 0, 0, 0
      30.7113663, 33, 79, 139, 110, 2
      40.4042510, 0, 0, 69, 181, 1
      50.4211160, 0, 0, 35, 81, 0
      60.2131900, 0, 0, 23, 167, 0

      表3可知,社团1、2、6具有较小的GI值,表明构成社团的大部分院校具有相近的教育水平。如图5所示,社团1由清华大学与北京大学构成,社团2由部分C9院校(含医学院)与985院校中国人民大学构成。这些社团内院校具有相近的教育水平(即同质性),它们在招生时存在较为激烈的竞争关系。而且,由社团2可知,同属于C9院校的哈尔滨工业大学与西安交通大学,由于地理位置影响,它们与其他C9院校的竞争关系相对较弱。社团6由大部分地方性的省属院校构成,它们教育水平相对较弱。这些院校的分数区间靠近本科第二批次线,具有较强的同质性导致激烈的竞争关系。

      图  5  竞争网络社团划分

      同时,社团4、5具有适中的GI值。它们主要由省部共建与省属院校混杂构成,具有适当的教育水平,一般在本省范围内具有一定的知名度。特别值得注意是,社团3具有最高的GI值,且社团规模最大、混杂度最高。它包括部分985院校、211院校、省部共建、具有优势专业(特指在本科第一批次招生专业)的省属院校,以及其他特殊院校。虽然这些院校存在一定的同质性,但是分数区间跨度较大,其内部依然存在较为明显的层次化结构。Louvain算法是基于模块度的经典社团划分算法,能够快速划分网络社团[26]。同时,考虑到再次使用网络社团结构推断方法可能无法细化社团3的子结构,本文从模块度视角通过Louvain算法进一步分析该社团的层次化结构。社团3划分的子结构GI值、规模,如表4所示。

      表 4  基于Louvain算法的社团3划分

      子结构编号GI值子结构规模院校标签类别分布“C9” “985”
      “211” “省部共建” “省属”“其他”
      10.61693, 30, 30, 5, 1, 0
      20.64720, 3, 35, 23, 10, 1
      30.62820, 0, 13, 33, 36, 0
      40.58480, 0, 3, 22, 22, 1
      50.52950, 0, 2, 51, 41, 1

      表4可知,所有子结构都具有相对适中的GI值,每一个子结构包含两个大类院校,且院校教育水平逐次降低以体现一定的层次结构。如子结构1主要由有教育水平较好的985与211院校构成(如图6所示),子结构2主要是排名适中的211院校与具有特色学科的省部共建院校构成。因此,本文通过子结构中院校标签类别分布,能够清晰地、科学地得到社团3内同质化院校的不同层次分布,从而对合理、分梯度地志愿填报进行有效指导。

      基于上述社团结构分析,同一社团中同质化院校的竞争关系较为剧烈。这样会导致院校在招生政策上采取一些有利于考生的政策,以此来吸引考生填报。但同样,在对同质化院校进行填报时,应充分考虑到社团内院校仍然可能存在分数区间的层次性。因此,考生在进行志愿填报时,应当依据社团结构划分的结果,在异质化的社团之间进行初步的筛选,并基于社团内部的层次结构,利用高度同质化院校的竞争关系进行合理、分梯度地填报,从而进入更优质的院校。

      图  6  社团3划分的子结构1网络

    • 本文应用复杂网络理论实证研究高考志愿填报过程中院校之间的竞争关系,分析其存在的异质度分布特征、层次结构特征、富人俱乐部以及社团结构特征。依据竞争网络结构(院校竞争关系)与节点(院校)的标签信息进行社团划分,其结果表明同一社团内院校在招生时存在较激烈的竞争关系,这种潜在的竞争关系将会影响院校的招生政策。进一步,本文通过Louvain算法发掘社团内竞争关系的层次结构特征,衡量社团内院校之间的竞争关系层次差异性,细化院校之间的竞争关系。

      这些实证结果有助于从网络科学角度理解院校的竞争关系。在此基础上,本文归纳了一些志愿填报策略和建议:

      1) 考生按照高考成绩,对应到社团划分得到的院校组群(即社团或社团子结构)。按照院校组群的层次化差异,可以合理、分梯度地填报平行志愿,且每个梯度对应某一个层级的院校组群。如社团3分解成5个层级的子结构,它们具有明显的梯度,考生可以适当选择2~3个梯度的院校组群,分别填报合适的目标院校。

      2) 填报平行志愿时,要适当减少分数区间波动较大的院校,降低平行志愿滑档的风险。如医科类院校的分数区间每年波动较大,填报此类院校的考生也较容易滑档。

      3) 如果考生的高考成绩处于本科第二批次的分数线附近,需要平衡目标院校的类型、地理位置等多种因素,结合“冲稳保”策略合理地填报平行志愿。

      最后,考虑到不同院校专业录取规则与设置专业的差异性,本文不直接考虑(不同学校)同专业之间的竞争关系。但是,本文对院校竞争关系是基于院校分数区间进行度量的,分数区间的下限表示院校的录取成绩,分数区间的上限表示院校最优专业的录取成绩,分数区间一定程度上反映出同学校不同专业之间的竞争关系。因此,仅有上述最后一项建议中的“冲稳保”策略可适用于填报同院校专业,且建议勾选“服从专业调剂”。

参考文献 (26)

目录

    /

    返回文章
    返回