本文是刊载于《管理世界》2017 年第 12 期《多个大股东与企业融资约束——基于文本分析的经验证据》[1] 的阅读笔记。原论文参照 Hoberg 和 Maksimovic(2015)、Buehlmaier 和 Whited(2016)的方法,结合中国制度背景和语言习惯,采用文本分析方法构建了融资约束指标。本笔记主要记录其使用文本分析方法构建指标的过程。
上市公司年报中“管理层讨论与分析”(简称为 MD&A )的文本。“管理层讨论与分析”直接或间接的涉及到公司资金状况的讨论,隐含了公司融资约束状况信息。
我国上市公司年报中“管理层讨论与分析”一般包括:
;
即为融资约束度量指标
。
在下载非金融行业公司历年年报后,使用程序提取和人工核对的方法提取。
这种涉及结构化文件和批量处理的工作,可以主要交由程序完成。首先是通过爬虫批量下载年报;然后通过分析 PDF 文档,需要提取文字板块的开始和结束特征(比如页码、标题等);最后,可以运用 Python 读取 PDF 的库读入文件,再通过条件判断语句提取对应信息。
Hoberg 和 Maksimovic(2015)认为融资约束体现为:投资计划、项目的推迟、搁置乃至放弃,因此,他们构造了两组“推迟投资”词语列表。
原文作者的创新:
"'[^。]*?((融资|资金|筹资))[^。]{0,6}?(难以|不能|无法|不足以)[^。]*'"
(除句号以外的任意长度字符串)+ 融资/资金/筹资+(六个字符长度域内的任意字符串)+ 难以/不能/无法满足/不足以 + (除句号以外的任意长度字符串)
"'[^。]*?((融资|资金|筹资))[^。]{0,6}?(成本|压力|难度)[^。]{0,4}?(升|增|高|大)[^。]*'"
(除句号以外的任意长度字符串)+ 融资/资金/筹资 +(六个字符长度以内的任意字符串)+ 成本/压力/难度 +(四个字符长度以内的任意字符串)+ 升/高/增/大 +(除句号以外的任意长度字符串)
利用正则表达式太过机械,可能引起误判。因此,在正则表达式的基础上,再利用条件判断语句和正则配合使用,构造出正则表达式组。
度量全体样本与融资约束样本的文本相似度。将任意一份 MD&A 中的词汇、词频信息映射为可比较的向量。对每个向量标准化,根据余弦相似度原理,任意两个标准化词频向量的积,即为两份 MD&A 之间的文本相似度。通过余弦相似度方法,能够识别全体样本的融资约束程度,并以连续变量的形式进行呈现。
在
年的 MD&A 标准化词频向量记为
。
,即反映当年融资约束 MD&A 的平均用词特征。
乘以
计算出
,即为全体 MD&A 与当年的融资约束文本集的相似程度。
但是初步计算出来的相似度衡量的是单份 MD&A 与融资约束文本集的整体相似度,其中夹杂可能导致相似度失真的因素,诸如:
针对上述问题,还需要在初步计算的基础上进一步清理才能得到更为准确的指标。
问题 | 对策 |
---|---|
不同交易所信息披露文本格式不同 | 将每年的 MD&A 按照不同交易所和深交所的不同板块进行划分 |
行业共性 | 以 2001 年证监会行业分类代码为标准划分行业,计算因行业特征引发的相似度 |
对历年隶属于各个板块的公司 MD&A ,求标准化词频向量的均值并做标准化处理,记为
,反映上市板
在
年的共同性信息披露内容。由
乘以
计算因 MD&A 共性内容导致的相似度。同样的方法,以 2001 年证监会行业分类代码为标准划分行业,记算因行业特征导致的共性。
借鉴 Hoberg 和 Maksimovic(2015)的方法,构建多元线性回归模型:
其中,残差
即为剔除上市交易所和行业特征引发融资约束后的融资约束相似度,也即文章最终采用的融资约束度量指标
。
[1]
《多个大股东与企业融资约束——基于文本分析的经验证据》: https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFQ&dbname=CJFDLAST2018&filename=GLSJ201712012&v=MDU3Njc0SDliTnJZOUVab1I4ZVgxTHV4WVM3RGgxVDNxVHJXTTFGckNVUjdxZlkrWnNGeXJuVUx2TElpSFlaTEc=