首页 / 学术活动 / 每周seminar

开放合作研究团队第12期Seminar学习讨论会

2021年8月24日晚19:00-20:50,中山大学区域开放与合作研究院文献研读会议以线上方式成功举行。本次学习讨论会由来自澳门城市大学的黄金穗博士和粤港澳发展研究院硕士研究生王姣同学分别分享文献、。参加学习讨论会人员包括张莉教授、李兵副教授、副研究员、博士后以及博士生和硕士生等,另有澳门科技大学、澳门城市大学博士生通过线上形式参与了本次学习讨论会





Learning By Working In Big Cities

JORGE DE LA ROCA, DIEGO PUGA



一、引言

本文主要想考察大城市存在收入溢价的三个可能原因:在大城市工作会具有固态优势;天生能力更强的人选择留在大城市;大城市提供更多的机会,促进人们在工作中学习和积累更有用的经验。研究表明,在大城市与小城市工作的员工,其个体不可观测的能力并没有很大的不同;在大城市工作得到的工资更多,短期内主要是因为大城市的固态效益,中期内主要是因为员工在大城市的工作中学习和积累有价值的经验;城市的固态效益和员工在工作中学习的带来的效益对工资的影响与员工个体的能力有关,能力越高的员工得益越多。

二、本文贡献

本文所使用的城市规模的度量方法,“10km范围内的平均人数度量”,排除了通勤经过的中介区域与绿化区域的影响,度量方法更加准确。本文推翻了以往研究认为的“大城市本身聚集了更多天生能力强的人,所以拉高了大城市的平均工资”,因为以往研究没有考虑能力与大城市学习效应的互补性,也就是大城市动态效益的异质性。

三、数据来源

本文所使用的数据是西班牙连续就业历史数据(Muestra Continua de Vidas Laborales or MCVL)。该数据是月度面板数据,涵盖的信息比较全面,包括研究所需要的就业,收入来源,个体特征数据等等信息。样本观测值只考虑18岁以上的出生在1962年之后的西班牙男性员工,就业时间限制在2004年1月-2009年12月。此外,最终的数据没有考虑移民、特殊区域、面积极小区域、创业人群、特殊行业、公共行业。经过筛选以后,最终的数据集是员工数量为157,113,月度样本数6,263,446,城市样本数76。

四、实证分析

本文从初始的偏误模型出发,逐次修正,探讨以上提出的大城市存在收入溢价的三个可能原因。

1.固态效应

先验证第一个原因,只讨论员工的收入与城市的固态效应有关,模型中没有加入员工自选择效应和城市动态效应。



其中,wict表示在时间t,员工i在城市c的工资的对数;σc表示城市固态效应;xit表示随时间变化的个人和工作特征;β表示xit的系数;εict表示误差项。



第(1)列汇报了考虑城市固定效应时员工和职业特征变量与工资对数收入的混合OLS回归结果,结果显示工作经验和公司年龄是收入的凹函数,收入随着工作要求的技能增加而单调递增。第(2)列是第(1)列估计的城市固定效应和工资对数的回归系数,显示工资溢价弹性为0.0455。

2.员工固定效应



其中,μi表示员工固定效应,即员工初始能力的自选择效应。

回归结果见表1的第(3)-(4)列。第(4)列的估计系数从0.0455下降到0.0241,这与以往的学者的研究现象相同。作者认为大城市收入溢价并不只是因为选择留在大城市的员工本身能力更高,还需要考虑员工在大城市积累的人力资本动态效应,或者考虑两者即员工自身能力员工和在大城市积累的人力资本动态效应的相结合的作用。结合稳健性检验的结果,作者在后面单独讨论了这一问题。

3. 动态效益

区分员工的经验的获得与使用的地点,此时的估计模型同时包含城市固定效应、员工固定效应和工作经验最完整的计量模型。



其中,eijt 表示在时间t员工i在城市j观测到的工作经验;δjc表示eijt的系数。

本文将三个城市规模级别(第一至第二、第三至第五、前五名之外)中每个级别的工作经验与某个大城市进行了交互,以考虑非线性效应。

回归结果如表2所示。



从表2第(1)列可以看出:

在大城市获得的工作经验更有价值。第(1)列数据显示,在马德里或巴塞罗那工作的第一年,相对于同一年在排名前五名以下的城市工作的人,收入会提高3.1%(e^(0.0309−0.0008)−1)。在排名三到五城市则会比排名前五名以下的城市工作的人,收入会提高1.5%(e^(0.0155−0.0006)−1)。另外,如果第一年在小城市(排名前五名以下的城市)工作后搬到大城市工作,第一年的工作经验的价值将比继续留在小城市工作高0.6%(e^(0.0064−0.0002)−1)

在大城市获得的经验具有很强的可转移性。员工在大城市工作一段时间后,继续留在大城市与换到排名前五名以下的城市工作,他们的经验价值没有显著差异。

2第(2)列控制员工固定效应,结果显示剔除员工在大城市积累的在职人力资本之后,城市规模与收入之间的弹性相关系数为0.0223。对比可以看到,与表1第(4)列0.0241并没有显著的不同。

2第(3)列展示中期效应:在考虑城市固态效应的基础上,加上员工在该城市工作7.72年的经验价值。结果显示城市规模与收入之间的弹性相关系数为0.051。控制员工固定效应后,城市规模的收入溢价主要是短期的城市固定效益和中期的员工在城市工作中学习所获得的有价值经验两个方面组成。对比表2第(3)列0.0510与表2第(2)列0.0223,两者的差异恰好反映城市静态效应和动态效应各占一半。

4. 稳健性检验

上述模型还存在一些可能会导致偏差的因素,作者在接下来的部分进行阐述。

4.1城市规模内生性问题

是否存在反向因果关系,即大城市的高工资能吸引劳动力等要素流入,进一步扩大城市规模?为剔除城市规模这一变量的内生性,作者利用历史城市规模数据选取了4个工具变量(距离城市中心25公里内被水域覆盖的土地百分比、坡度大于15%的土地百分比、土地供应能力、距市中心25公里内的海拔)进行两阶段回归。研究发现以上结论依旧得到验证,可见城市规模的内生性并不是一个大问题,因为城市规模的变化往往要经历很长一段时间。

4.2 员工自身能力与在大城市的工作经验和学习收益能否互补?

文章根据个体职业技能划分为不同的能力等级,但发现这样做的结果并不符合预期,猜测可能用能力等级还不能捕捉到所有的不可观测能力,于是在上述模型的基础上加入个体固定效应和工作经验的交乘项,把员工自身能力也考虑到在城市工作中学习所得的经验价值的度量里,估计模型如下:



回归结果如下表4所示,结果显示在大城市的动态效益中,个体异质性起着很大的作用。在大城市获得的工作经验更有价值,而且对能力较高的员工来说获益更多。



4.3 员工的选择效应后续讨论:大城市收入均值高是因为能力强的人多吗?是不是能力强的人都选择留在大城市?

以往的研究证明了大城市聚集能力高的员工与高收入工作有关。作者在这部分继续讨论 关于“员工空间自选择”未解决的问题,发现员工固定效应会影响收入正是因为不同能力个体之间积累的工作经验含金量会有差异(大城市动态效益的异质性)。作者将表4第(1)列和表2第(1)列的员工固定效应对比,表4第(1)列的员工固定效应表示允许在不同能力个体之间积累的工作经验含金量不一样(能力与工作经验交互项),表2第(1)列反映同质个体固定效应的不同,即仅考虑不同城市的工作经验的含金量差异,但不考虑不同能力的个体之间积累的工作经验的含金量差异。

8的四幅图是对以上研究发现的一个总结和动态对比。从Panel(d)到Panel(a)发现,当考虑了城市固态效应、大城市动态效益的异质性后,不同城市规模的员工个体不可观测的能力的密度分布是相似的,也就是说,大小城市的员工个体不可观测的能力并没有很大的不同。



另外,作者针对所筛选掉的样本进行补充研究,

将样本时间换到1998-2003,也得到较稳健的结果。对于女性员工来说,收入溢价对于她们的影响只有男性员工的一半。加入公共行业样本后,收入溢价会减少,也就是说收入溢价在非公共行业会更显著。

五、结论

本文针对大城市存在收入溢价的现象,考察三个可能原因:在大城市工作会具有固态优势;天生能力更强的人选择留在大城市;大城市提供更多的机会,促进人们在工作中学习和积累更有用的经验。

研究表明,在大城市与小城市工作的员工的个体不可观测的能力并没有很大的不同。大城市工作的收入溢价,短期内主要是因为大城市的固态效益,中期内主要是因为员工在大城市的工作中学习和积累有价值的经验,这种效益可以转化为员工自身的人力资本,当员工离开大城市后可以随之转移,因此在大城市的工作中学习和积累工作经验是非常重要的。城市的固态效益和员工在工作中学习的带来的效益对工资的影响与员工个体的能力有关,能力越高的员工得益越多,这就是大城市的人均工资高、工资差异大的原因。

六、交流与讨论

李兵老师认为,本文的方法并不突出,但关键在于其数据十分难得,在经过筛选后依旧能够剩下十五万左右的个体,这对微观调查数据来说很不容易。因此作者才能控制个体固定效应,并且将各种类别的数据分离出来。想做国内相关研究的话最大的限制在于样本选取,无法清洗的这么干净,在数据上来说很难模仿。

张莉老师提出可以考虑各公司的简历招聘数据,但由于这类数据缺乏员工的工资水平,因此也需要进一步思考替代指标。或是考虑进行一些其他方面的模仿,比如城市规模对工资溢价的影响机制等。



Does Science Advance One Funeral at a Time?

Pierre Azoulay & Christian Fons-Rosen & Joshua S. Graff Zivin



一、引言

本文研究的是科学家死亡能否对他们的所在的研究领域产生重要的影响。研究表明,这种影响是两方面的,一方面:与早逝的科学家有合作关系的学者发表在该领域的文章会减少,另一方面:新进入者文献数量则会激增。

量子力学之父——马克斯•普朗克说过一句话:一个新的科学真理不是通过说服它的反对者并让他们看到光明而获胜,而是因为它的反对者终会死去,熟悉它的新一代最终会成长。换句话来说,普朗克认为单个科学家的特殊立场能在很大程度上改变或至少延缓科学进步的进程。但这种观点很难通过研究既定的科学家在接受范式转换思想方面比新手慢而进一步验证。

另一部分学者则认为由于代价过大,科学家改变自己的范式现象很罕见,他们只是在固定的范式或解释框架内进行理论化、观察和实验的常规工作来推动科学进步,而缺乏新的真理意味着科学家必须在拥挤的知识环境中竞争,因此才会有一方战胜一方来获得自己思想至高无上的现象(Bourdieu1975)

在本文中,作者使用DID方法来验证生物医学研究背景下的“普朗克原理”。

具体来说,作者研究了452名杰出科学家的早逝如何改变了他们所在子领域的活力,然后与匹配的控制组进行对比。最终得出,是其他领域的进入者填补了明星科学家的空位,而不是同领域的竞争对手。因此本文的结论与普朗克论点一致:杰出科学家死亡为其领域提供了一个新方向发展的机会,从而推动该领域的知识前沿。

本文创新点在于三个方面:

首先,本文是第一个使用应用经济学标准实证工具来研究科学进化动态的文章。

其次,本文将科学家的死亡概念转化为对他们去世前几年工作的知识社区结构的冲击。

最后,本文采用PMRA算法(生物医药相关引文算法)构建数据集,这种算法能够对上述的社区边界(子领域)进行科学划分,同时这种界限不是由合作或者引用关系来界定的。

文章一共包括四个部分:第一章节主要讲制度背景并提出实证策略,第二章节主要介绍了数据来源、方法和描述性统计,第三章节是实证结果,第四章节是本文的结论及不足

二、制度背景

本文的实证分析主要聚焦于生命科学领域,这种关注有以下几方面的优点:

1.在过去半个世界里,该领域一直是科学发现的重要来源。

2.生命科学研究队伍庞大且专业化

3.学术研究背景还提供了研究投入、产出和合作历史的记录。在投入方面,研究人员的大部分资金依赖于一个机构,可以通过对精英科学家的财务把关来规范进入该领域的标准。个人层面的国家卫生研究院资助数据(有利于评估明学科学家死后外部人员进入该领域数量的变化情况),以及“研究部门”(评估资助申请的科学价值的同行评审小组)的成员资格,将使我们能够直接研究这些问题。此外,研究人员的主要产出都标记在国家医学图书馆管理的关键词库当中,因此可以为本文在划分子领域时提供支持。

三、数据来源、方法和描述性统计

A. 明星科学家样本的选择

在本文的研究当中,如果一名科学家至少满足以下一种条件,则该科学家被视为精英:

1.获得大量资助的科学家;

2.被高度引用的科学家;

3.顶级专利人;

4.国家科学院成员;

5国家医学科学院成员;

6.NIH MERIT获奖者;

7.霍华德·休斯医学调查员;

8.早期职业奖获得者。

5条是基于整个科学生涯累积的成就制定的标准,为了进一步捕获在未来可能成为杰出科学家的这部分群体,作者在上述基础上又纳入了6.7.8三个条件作为补充。

样本中科学家的职业生涯主要集中在第一次获得独立研究者的职位到2006年之间。数据内容包括就业历史、持有的学位、学位日期、性别和部门隶属关系,以及每位科学家每年获得的出版物、专利和国家卫生研究院资助的完整列表。 为了保证在科学家去世后每个领域至少有三年的科学产出,因此去世的452名科学家的死亡时间必须限制在1975-2003年之间。

B.研究领域的划分

本文子领域的划分主要依赖两个数据库

其一:国家医学图书馆的在线资源pubmed,该数据库包括超过40000种生命科学期刊。

其二:由国家医学图书馆维护的Mesh专业术语词库,该词库为生物医学研究文献跨越的领域提供了精细的划分。并依据每篇文章研究的科学内容,利用专业索引器将mesh关键字分配给每篇文献。再利用PMRA---公共医学相关引用算法对不同关键字赋予权重计算出两篇文献的近似度,将近似度高的认为是相关文献挑选出来并生成一个列表。

对于子领域的划分,作者在452位已故的杰出科学家中挑选了一位叫做赫斯克维茨的科学家来举例,该科学家于2003年去世,在去世前五年共发表了12篇文献且担任作,针对每一篇PMRA都会返回一个原文献相似文献的集合,该集合就是个子领域。

C.识别策略

本文实证策略侧重于超级明星去世后子领域研究活力的变化,但是简单的通过控制时间和超级明星的年龄没有办法过滤掉时变遗漏变量的影响,比如在子领域中,由于生命周期的存在,生产潜力可能在达到峰值之前随着时间的推移而增加,然后慢慢下降,这样就会对实证结果产生影响。为了避免这一问题,作者为处理组的每一个科学家-子领域匹配一个对照的科学家-子领域,这些控制观测是从未死亡的杰出科学家子领域中挑选出来的,再利用DID来评估杰出科学家死亡的影响。

控制组样本的生成方法:

首先挑选出与处理组源文章出现在同一期刊和同一年的所有文章,并且只保留仍活着的杰出科学家并担任作的文章。其次,采用“粗略精确匹配”程序选择控制组源文章,使得该文章满足

1、处理组和控制组的作者数量大致相似

2、处理组和控制组杰出科学家的年龄差距不超过五年

3、处理组和控制组的源文章被引用次数相同

最后,利用PMRA算法找到源文章的所有相关文章,并划分子领域。

D.描述性统计

上述过程共产生34218个不同的子领域;其中3076个子域对应452个已故科学家,31142个子域对应5809个仍活着的科学家。表2提供了基期(即已故科学家的死亡年份)处理组和控制组子领域的描述性统计数据。



由表2可以看出,一些协变量在处理组和控制组子域之间达到平衡:例如,研究者的学位年份、作者的源文章数量或基期引用的源文章数量。同时观察国家研究院资助、累计发表文章数量和文章被引用次数这三个指标可以发现,处理组和对照组科学家在死亡时的卓越程度似乎也非常相似。对于合作者和非合作者,本文通过AAMC(美国医学院协会的教师名册)对子领域中每篇相关文章的作者进行匹配,进一步得出杰出科学家的合作者和非合作者,由表2可以看出基期大约有11%的出版活动由合作者完成,且这一比例在处理组和控制组中相似。

四、实证结果

A.计量方法

采用固定效应泊松模型

估算方程(1)所示



其中y为子领域活力的测度,AFTER_DEATH为虚拟变量,在与i相关的明星科学家死后取1,之前取0。treat是处理组子域的指示变量,f(AGEit)是子域生命周期函数, δt表示一整套年指标变量, γ i表示子域固定效应。

B.明星科学家死亡效应

作者选用QML对式(1)中的参数进行估计估计结果如表3所示。



其中,由第(1)列可以看出,明星科学家的死亡能够增加其对应子领域的出版物数量,但增加幅度不大,约为5.2%,且在10%的水平上显著,由第(2)列和第(3)列可以看出,增长效应分两个方面,一是明星科学家的合作者在该领域的发刊数量有所下降,二是非合作者的发刊数量有所上升,且上升的数量能够抵消减少的数量,且(2)(3)列系数在1%的水平上显著。

上述是明星科学家死亡的静态效应,作者还进一步研究了动态效应,主要通过treat和一组与超级巨星死亡相关的特定年份指标变量交互项获得,并将这些效果和它们周围的95%置信区间绘制成图2.



该图有两个点值得关注,首先,动态效应放大了表3的结果,因为,从panelA可以看出,效应随时间单调增加,也进一步说明明星科学家死亡效应不只是暂时的,而是随着时间逐渐扩大的。其次,在死亡之前的几年里,没有证据显示明星科学家死亡对子领域产生显著影响。表3的后三列关注的是来自美国国立卫生研究院(NIH)的资助数量,其结果与出版物数量的结果相似。

C.子领域增长模式

前面提到,增长效应都来自于非合作者的贡献,因此作者将与明星合作过的科学家文章排除在构成因变量的文章之外,来进一步研究,明星科学家死后,非合作者对该领域的贡献。

假设非合作者的贡献有两种可能,一是继续关注子领域内的主流话题,二是引领子领域朝一个新的方向发展。表4表5验证了这个假设。



4中,作者通过解析子领域的每篇相关文献,根据他们特定年份的被引用数量,将他们分配到六个互斥的箱中,划分的界限分别为,引用分布的第一四分位点,第二四分位点,第三四分位点,属于75分位以上但低于95分位的文章、属于第95分位以上,但低于99分位的文章,超过引文分布第99分位的文章。表4中每一列都报告了相应的估计值,可以看出,引用影响力更大的文献系数更高,也就是说,明星科学家死亡能够增加非合作者在该领域发表数量,且对于引用影响力更大的文章,增长效果更为明显。



5分析了每个子领域的相关文章,以确定非合作者是否真的使得子领域朝新的方向发展。panelA将非合作者的相关文献分为与源文献接近的文献和较远的文献。因为PMRA算法计算出的近似度分为基数和序数两种度量,所以panelA给出了两组估计。在这两种情况下,近似度更高的文献受到的影响幅度更大且更显著。

panelB 分析了每篇相关文献的参考文献,来说明该领域的知识方向。前两列将文章分为两组,一组是至少引用一些本领域的相关文献的文章,另一组是专门引用PMRA子领域之外的文章。从估计系数可以看出,只有第二组在明星科学家死亡后有所增长。panelB的后两列将文章分为参考明学科学家的和不参考明星科学家的文章,可以看出后者增长幅度更大且在1%的水平上显著。因此可以得出,大部分子领域的增长可以由非合作者的文章来解释,同时这些文章不是建立在明星作品的基础上的。panelB强调了非合作者给子领域带来了新的灵感来源。

panelC将文章分为“新鲜的”和“陈旧的”,划分依据有两种, :是否引用了最近的参考文献;二:是否被最近年份的MESH术语注释。两组结果都表明,非合作者带来的贡献更加接近知识前沿。



作者还对非合作科学家进行了分类,一种是已故明星的竞争对手,他们大部分出版活动都属于明星所在的子领域。另一种是最近进入这个子领域的局外人。相关文献作者和明星重叠率分布如图3 panelA所示,可以看出,超过50%的作者与明星不属同一研究领域,且有1.24%的科学家在该领域发表他们职业生涯中的第一部作品。同时作者还衡量了非合作者当中局外人的贡献程度。如图3 panelB所示,横坐标表示非合作者与明星科学家的重叠度,纵坐标表示明星死后文章数量的变化百分率,其中重叠率低于中位数的区间,文章数量变化幅度最大,因此可以说明,明星去世后,推动文献数量增长的大多数是局外人。

D.进入壁垒

本节揭示了子领域的进入壁垒,首先对于进入壁垒的有一个猜想,即明星科学家会通过控制关键资源来限制新人的进入。但这个猜想与事实不符。调查发现,在去世前的五年时间里,我们452位已故科学家当中只有三位是NIH评审小组成员和期刊编辑。这对于新人进入的影响不大。除此之外还有三个进入壁垒。

进入壁垒1:明星显赫的地位

6通过关注明星的显赫地位来检验隐性进入壁垒的作用。作者通过明星出版数量、该明星的累计被引用次数、以及该明星获得的NIH累计资助来度量明星的卓越性,通过明星对子领域的重要性来度量局部卓越性,同时用卓越性度量的中间值对样本进行分割,由表六可以看出,卓越性高的样本中,明星科学家死亡的增长效应更大,进一步说明,杰出学者的出现就足以遏制局外人的进入。



进入壁垒2:子领域的连贯性

这种连贯性指知识连贯性和社交连贯性,当活跃在子领域的研究人员就推动该领域向前发展的一系列问题、方法或方法论达成一致时,该子领域就是知识连贯的;当活跃在某个领域的研究人员组成一个紧密团结的小团体,经常互相合作,还相互审阅对方手稿时,该领域则被认为是社交连贯的。

作者主要使用两种方法对知识连贯性进行测度。

方法:利用pmra算法计算出的基数相似度和序数相似度,选择子领域中第25篇最相关文章的基数排名作为知识连贯性的测度

方法二:利用明星去世前子领域中每篇相关文献引用本子领域文献的比例作为测度指标。

对于社交连贯性,作者通过计算合著网络中的聚类系数来衡量。

7panelA对子领域连贯性这一进入壁垒的作用进行了检验



其中(1)(2)列是通过PMRA算法来计算子领域知识连贯性的,对比(1)(2)列可知,低连贯子领域样本中,明星死亡的增长效应要显著高于高连贯子领域,对于另外两个测度指标结果仍一致。因此子领域连贯性越高,明星死后非合作者进入该领域就越难。

进入壁垒3:现任资源控制

虽然没有证据表明,明星科学家是通过担任NIH评审成员或者成为期刊编辑对资源进行控制来抑制局外人的进入,但这些资源可以通过合作者来间接控制。如果一个领域内的现任学者充当资金和期刊访问守门人,那么他们是能够限制局外人进入的。

作者分别用1.明星死亡前的五年中与NIH成员合作的人数2.明星死亡前五年中合作者所写的社论总数量,来衡量合作者对资源的间接控制程度。

通过对比表7panelB中的(1)(2)、(3)(4)和(5)(6)列,可以看出,明星的合作者中担任NIH成员或者期刊编辑的数量越多,明星死后非合作者发刊增加幅度就越低,新人进入该领域就越难。

五、结论和不足

研究发现:当明星科学家死后,非合作者在该领域的发表数量激增,且这种增加不是由子领域内部的领导层重组所推动的,而是由该领域的新进入者所推动的。同时本文还研究了子领域的进入壁垒,包括1)明星科学家本身的卓越性;2)子领域连贯性;3)明星合作者对资源的间接控制程度。

本文还存在一些不足:首先,本文的发现对社会福利的影响是模糊的,因此不能得出具体的政策结论。其次,研究背景主要聚焦于生命科学学术领域,不一定适用于其他领域。

分享结束后,课题组成员围绕本文内容展开了讨论,李兵老师认为,在研究一些涉及论文、专利、报纸、社交媒体、政策文件等文本分析以及分类问题时可以参照本文,采用一些机器学习的方法。叶璐博士则提出可否仿照此文进行一些关于学术不端的影响研究,李兵老师认为这个主题可以考虑,但内生性问题很难解决。荣博士提出可以将研究对象聚焦于其他领域,或许有不同的结论。本次学术研讨会充分体现了研究院浓厚的学术氛围,大家在学术交流中相互学习共同进步,提高自己的学术能力,至此,本次文献研讨会圆满结束。



拟稿:黄金穗、王姣、马帅兵

编辑:陈多多

审核:李兵

审核发布:毛艳华