On Credit-Splitting Mechanism in Reponses to Data Queries

GU Qin; ZHOU Tao

doi:10.12178/1001-0548.2021005

Data circulation is a novel and important means to facilitate productivity. Different from the trade of normal products, the requesting, addressing, answering and transmitting of data involve complicated procedure, and a single requirement may lead to multiple answers or even bids. Accordingly, a fundamental issue in building up an efficient and effective system for data circulation is to design a credit allocation mechanism. This paper analyzes the typical pattern of data demand and data supply, proposes an incentive network model containing requesting node, intermediary nodes and answering nodes, and designs a geometrical decaying mechanism in credit allocation. Under the above general framework, we show some typical models and the corresponding calculation processes, and extend the single chain model to the general situation involving multiple answering nodes with different weights. Lastly, we discuss how to deal with more complicated cases under this framework, such as allowing bids in competition of multiple nodes.

HTML

2020年4月9日，中共中央、国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》(以下简称《意见》)，明确了要素市场制度建设的方向及重点改革任务，并就扩大要素市场化配置范围、促进要素自主有序流动、加快要素价格市场化改革等作出了部署。《意见》首次将数据明确为与土地、劳动力、资本和技术并列的新型生产要素。数据作为生产要素参与分配具有突破性的意义，有望快速推动数据确权、数据交易和数据资本化。譬如技术作为生产要素地位的明确，就为技术的有价转让以及以知识产权作价作为股本金出资奠定了基础。如何搭建合规且高效的数据要素流通体系，是《意见》出台后亟待回答的关键问题。

数据要素的流通方式主要包括开放、共享和交易。数据开放是指向不特定主体开放的非涉密非隐私数据，一般不收取费用。某些情况下开放是面向受限主体或者有前提条件的，譬如有些科学数据的开放需要使用方提前说明使用方式并承诺不用于商业目的。数据共享是指在协议或约定条件下，数据在有限主体间共享，一般也不收取费用。参与共享的主体往往同时也是数据的提供方。其他需要支付费用才能获得数据的流通方式，往往都被归为数据交易。数据交易的方式很多，包括批量下载(大量数据一次性付费下载，如遥感数据)、权限使用(根据权限查阅和下载数据，一般对于线程数和下载量有限制，如高校购买的电子出版物和经济社会数据集等)、API查询(通过接口查询，一般返回简单的是否或数值，按照查询次数付费)、API调用(通过接口进行下载，一般按照下载量付费)、沙箱服务(在约定的数据环境和数据格式下进行运算并获取结果，不直接得到数据本身)等。如果只是简单和传统的生产要素做类比，通常会认为交易才是数据作为生产要素流通的方式。但实际情况并非如此，开放的数据也可以作为重要的生产要素，如疾病致病基因的发现，需要人类表型本体(human phenotype ontology)数据；又如先导药物分子的发现，往往要用到大量开放的有机化学方程式库。共享的数据很多也是典型的生产要素，如多家金融机构在一定的协议约定和隐私保障下，通过数据共享可以提高风险识别的准确度，提升反欺诈、反洗钱和普惠金融服务等能力。事实上，不同于一听可乐或者一件衣服，数据很少成为最终的消费品，大部分数据的需求方都是将数据作为进一步生产的原材料，或通过对数据的利用提升决策水平、业务能力、服务效率等，这正好也是生产要素的特点。

与普通商品交易不同，随着数据需求深度和广度的增加，数据交易的结构可能非常复杂。如采集数据需求的平台可能并不具备部分或者全部的数据，数据的需求可能需要多个分布于不同位置的数据源的组合才能满足，还需要大量中介节点分解和传递数据需求、需求响应情况以及数据本身。在满足数据需求的过程中，不同数据源的数据贡献程度可能差异很大，不同数据源还可能针对同一项数据需求开展竞价。如针对罕见病的研究需要不同国家地区的多个医疗机构提供病例数据，又如对企业的深入尽调需要调取在不同地区注册的目标企业及其投资对象的多维数据。为了应对这些复杂的情境，充分发挥完成一个数据请求所涉及的多个异质主体的积极性，亟需设计一套数据要素流通的分账机制，这也是保障数据要素有效流通的基础性问题之一。

本文分析了典型的数据请求和响应模式，借鉴了P2P文件共享系统中请求响应的激励机制^[1]和单任务的链式衰减激励机制^[2]，建立了包括请求端节点、中介节点和响应端节点的激励网络模型，设计了几何衰减的分账机制。在上述具有普适性的框架下，本文给出了几种常见情况下如何分账的具体计算过程，并将该机制推广到了数据请求需要多数据源响应且各自贡献不同的含权情境。文末讨论了如何在此框架下包容更复杂的情况，包括如何处理不同数据源针对同一数据需求进行竞价的复杂情况。

3. 结束语

针对数据要素流通过程中如何分账的问题，本文提出了一个简单的框架，其核心组件包括：1) 流通网络由请求端节点、中介节点和响应端节点组成；2) 响应端节点贡献大于中介节点，且贡献值按照几何级数衰减；3) 一次数据请求可以由多个响应端节点满足，并根据不同权重进行贡献值的分配。尽管具体模型还可以根据不同场景的需求进行变化，但以上基本思想是具有普遍适用性的，应该能在数据要素流通体系建设中发挥重要的参考价值。

本文一个隐含的假设是中介节点知道如何找到响应端节点，或者说知道如何为一个数据需求在流通网络上寻址。对于一些简单的情况，例如一个城市A的数据中心就掌握该城市的所有可流通税务数据，不同数据中心按照行政所属关系形成连接，这种情况下寻址的逻辑就非常简单。然而，实际情况下数据的需求复杂多样，数据的供给方信息并不完备，此时如何给出数据线索，如何寻址，在哪些情况下要采用广播方式等等，都是值得进一步研究的问题。其中，一种更复杂的情况，就是同一个数据需求的细项，有不止一个数据源可以响应。每个得到通知的数据源原则上都可以通过网络竞价。这种情况下，如何设计竞价拍卖的机制以及在该机制下如何确定竞标价格，也是值得深究的问题。特别地，如果一个节点本身可以满足数据需求，它是否还要转发这个需求，就成了有趣的两难选择。一方面它的转发会带来新的竞争对手，造成竞价成功的可能性降低或利润空间降低；另一方面它既无法保证竞价成功，又可以寄望通过它的后继节点或后继的后继等竞价成功而获得相应分成。最近我们设计了一套机制，可以在社会化拍卖的过程中让转发拍卖信息并按照真实意愿出价恰好是纳什均衡，从而提升拍卖的效率和系统整体收益^[3]。这些都可能为更好实现数据要素的流通赋能！

致谢：成都大数据产业技术研究院兰宇、清华大学廖敬仪和成都大数据股份有限公司徐忠波亦对本文有贡献，特此感谢。

Reference (3)

On Credit-Splitting Mechanism in Reponses to Data Queries

doi: 10.12178/1001-0548.2021005

Abstract

References

Proportional views

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Related

Proportional views