全自动玻璃磨边机

    金融知识图谱的应用:回顾与现状

    来源:全自动玻璃磨边机    发布时间:2023-11-23 03:16:58

    在规划演讲内容时,本来想总结一下知识图谱当前在监管、资管、银行、券商、评级以及一些咨询场景上的应

  在规划演讲内容时,本来想总结一下知识图谱当前在监管、资管、银行、券商、评级以及一些咨询场景上的应用。但又感觉那样讲有集邮一样的罗列感,不见大局。知识图谱在金融领域的应用已有六、七年的历史,不如从时间的角度,把这些应用、场景如何一步步演化出来的,给予比较详细的介绍,可在比较中获得领域发展的脉络。

  在中国,知识图谱在金融领域线号,因为那天人工智能 AlpahGo 击败了围棋世界冠军李世石。

  整个金融界完全被震撼了。那天好多人给我打电话,说现在下围棋,人都下不过机器人了,我们做投资、炒股的,是不是以后机器人会比人做得更好?

  也有很多人来问脑力的自动化到底会不会带来一些金融行业的变化:比如哪些职位可能消失,哪些应用、哪些区段可能会发生巨大改变,以及这样的领域里哪一些问题需要优先解决?

  所以三天后,也就是2016年3月12号,我们组织了国内两个领域的第一次对话,就是“语义对话金融”沙龙。在技术界我们邀请了领域里最重要的几位核心专家,包括李涓子老师、陈华钧老师、陈利人老师等;在金融界邀请了诸多投资界的大咖们。这次沙龙人并不多,但讨论非常激烈。

  在沙龙上大家探讨了很多问题。当时是2016年3月份,中国的知识图谱在金融领域还基本上没有为人熟知的应用,能找到的应用案例都是之前美国或欧洲的。2016年之前,欧美知识图谱在金融上的应用已经探索了将近10年时间。例如2008年前后英国公司 Garlik 就已经用知识图谱技术来做信用监控。摩根大通也是在2010年前后开始做语义数据集成。在沙龙上,大家讨论了欧美的先进应用案例是不是能够在中国用起来。

  回到2016年,两个领域的第一次对话时点,恰好处于金融科技( Fintech )上半场和下半场的转折点。当年只要说金融科技,大家首先想到的肯定是网络金融,当时最主要的应用就是P2P,还有很多其他的应用场景。我记得那一年《清华金融评论》专门有一个 Fintech 的互联网金融专辑,非常详细地列举了各种互联网金融的场景。当然大部分这些场景后来都被证伪了,几乎整个行业都被消灭掉了。

  回到2016年,没人能够预言之后三四年会发生如此巨大的变化,但其实已经能够模糊地感知到2016年前后其实是一个非常巨大的转折点。2016年之前,这种以触达为核心的互联网金融发展非常快,但是在2016年到2017年前后,全行业感觉撞到了一堵墙。金融科技的上半场是以互联网金融的“触达”革命为主,但到下半场就面临一个“重构”的革命,它不仅是去延伸之前的场景,而且是要去创造出新的场景,但创造是最难的。

  2016年之后的几年内,行业会更深刻地理解这个转折点。尤其当我们把视野扩得更宽广一点之后需要去思考:为什么此阶段需要AI和知识图谱,在此之前它是什么?

  其实整个金融 IT 化的过程可大致分为4个阶段,分别是信息化、大数据化、自动化和智能化。前面差不多20年的时间内,行业完成了信息化和大数据化。后来在2016年之前的5年时间,完成了一些相对简单的自动化。

  到了2016年,金融科技行业认为能跨入智能化阶段了,但事实上最终证明这个想法有点超前。应该来说在2016年不但智能化是超前的,自动化也是超前的,因为2016年依然还属于大数据化阶段。所以整个行业其实又蹉跎了三年,到了2019年前后才真正进入到大规模自动化阶段,此阶段至今还没有完全结束。

  智能化的本质又是什么?回到2016年3月9号,“Big Bang”的那天,很多人给我打电话,问是不是整个金融行业的职位都要被消灭掉,我倒不这么认为,因为技术人都知道,神经网络、知识图谱、机器学习各种算法其实挺笨的。但是智能化的确能够在一定程度上帮助我们做一部分被称为“脑力体力劳动”的事情,也就是可以让你做到吐的那种简单重复的脑力劳动。

  这部分劳动是可以被自动化的,比如天天用财务报表算账的劳动。但是如何去找到一个非常优质的投资机会,则不属于脑力体力劳动的范畴,这个工作是需要创造性的。所以说怎样把人的洞察能力用巨大的规模来实现,或者把社会的力量用机器速度来实现,这就是智能化在金融领域落地的核心,即自动化“脑力体力劳动”。它的本质是构造一个“社会机器”,即用机器在做简单重复劳动的部分,且人去做有创造力的那部分,从而建立一个高效的人机协作系统。

  回到 2016年第一次开会时,中国尚没有大家熟知的金融知识图谱应用。唯一能够想到的就是创投类的数据库。那时候滕放老师(注:峰会的另一位嘉宾,现中数智源创始人 & CEO)的因果树公司,应该是国内最早做金融领域知识图谱应用的公司之一。

  到了2017年,经过一年的发展这一领域有了非常巨大的进展。2017年3月,由中国中文信息学会语言与知识计算专委会、杭州大学、文因互联联合举办的“第一届金融知识图谱论坛”在杭州举行。

  这次会议大概有包括上交所、深交所、7家券商、10多家银行,还有50多家行业内机构在内的150个参与单位共计270人参加,活动现场讨论非常激烈。

  那次会上我们邀请到了自然语言处理界的老前辈,上交所的前 CTO 白硕老师,他讲了自然语言处理与知识图谱的对接;然后三位领域的创投数据库 CEO 分享了知识图谱在投资领域里的应用。最后是陈华钧老师分享了开放知识图谱的愿景。

  相对2016年,2017年金融知识图谱的应用开始大规模扩展。除了创投类的数据库外,还有了公众公司基本面数据库和行情数据库。特别值得指出的是2017年的3月,国内有了第一个用自然语言处理来进行上市公司公告的项目,也就是上交所的公告摘要项目,这也是文因互联的第一个监管项目。

  2017年滕放老师和同事们也把工商数据全部转化成知识图谱。2016年只能想到知识图谱可能在投资上面能有些应用,所以那时我们做过新三板的数据终端 ,当时有好几家公司努力要成为中国新的彭博社。到了2017年可以看到传统的数据获取、浏览方式还有更大的空间,所以出现了金融搜索引擎,金融问答引擎,研报和公告的摘要引擎等应用,即脱水研报、脱水公告,还有各种信贷流程自动化、评级流程自动化、自动化报告、自动化新闻、自动化审计等等的雏形。

  2017年看到的应用领域,经过5年的发展,今天已经相对成熟。2017年时这个领域只诞生了一年多,还是一个方兴未艾的领域。这年 FinKG 致辞里有三句话,我觉得到了今天依然是有意义的。

  第一句话,金融知识图谱是一个复杂的系统工程,天下大事,必做于细,所以需要一些中间节点,而不能一下子变魔术。所谓的变魔术就是要创造一个比人更厉害的投资引擎,但现在还做不到,因为中间需要大量的数据治理,大量的金融标准件的建设,这是中间节点。

  第二句话,金融知识图谱可能催生新的应用,但是旧的金融体系难以承载。这也是我们在商业化过程中深刻感知到的,它是一个典型的创新者窘境问题。之所以称它为重构,就是因为它要打破一些东西。所以会看到金融知识图谱应用最广泛的地方通常都不是传统业务,而是新兴业务。比如像专精特新企业、中小企业上市,后来像 ESG、自动化监管,在这种新场景里更容易落地。2017年我们是这样想的,后来事实证明这个行业也是这么发展的。

  最后一句话,这个领域需要金融和人工智能两个行业的人才密切交流,来培养复合型新人才。所以第二年在中文信息学会专门成立了相应的工作组。5年下来,通过整个行业和高校、学会的不懈努力,从业公司前后培养了好几百人,有了一批在中国发展智能金融行业的人才种子。

  2018年,在全国知识图谱与语义计算大会(CCKS)上,这个领域的协调组织成立了,叫金融知识图谱工作组(FinKG WG)。

  也就是从2018年开始,经历了很多想法虽好却无法落地的困境后,大家都认识到要想落地必须先有优质数据,要有优质数据,必须解决文档自动化理解问题,这就奠定了今后三年整个行业的主旋律。

  2018年也看到了一些应用上的趋势,比如金融客户传统是以统计建模为主,2018年开始进行行业的知识建模、财务的知识建模,宏观的投资知识建模、还有规章制度知识建模等。从传统的利用结构化数据到更加重视利用非结构化数据;从传统的只看交易,但2018年发现交易并不是全部,交易之外的场景其实更广阔,所以出现了更多新应用。

  下图是2018年的金融知识图谱图景,可以看到比2017年又丰富了很多,灰色部分是2017年提到的,黑色部分应用是2018年新增的,可以看到多了许多种新的突破,比如像产业链图谱、价格图谱、债券风险图谱、营销获客图谱等等。

  然后也出现了很多新场景,比如监管上出现了很多细分场景,随着公告可以被机器自动化处理后,后面整个流程都逐渐被自动化,比如公告的合规检查以前都是要人工来做,随着机器可以处理数据本身后,这部分通过规则也可以部分地实现机器自动化监控。

  在2018年前后,文因互联和友商一起在发债的企业上做过风险监控。大家回顾2018年就会发现,那时就是资管新规刚开始的时候,也是各种城投债开始违约的时候。以前大家总觉得城投债、政府债、国企信用不会违约,后来证明还是会的,所以债券违约预警就成为2018年~2020年这三年时间里的一个核心的应用场景,文因互联在那个时候和客户一起也做了很多这方面的工作。

  2018年前后,随着整个国家的金融转型,应用场景大范围出现。因为之前是跑马圈地的过程,那时候硬科技企业很少得到投资,中小企业上市也处于一个很困难阶段。比如2018年新三板开始变得越来越不景气,大家非常强烈地感受到创业者的窘境,前路茫茫。尽管看起来有这么多可以去应用的场景,但是商业化的场景和真正的破局点大家没有看到,大家还在痛苦的探索当中。

  时间转到2019年。2019年年初大家依然在探索,当然还是不知道破局点在哪里。金融知识图谱工作组就组织了一系列会议和沙龙,试图让金融界和技术界同行更密切的交流。

  2019年年初我们在国家金融发展实验室组织了一场金融知识图谱论坛,这次讲的是监管业务。

  4月份文因互联在普华永道又组织了一次论坛,这次讲的比较广,各种场景都讨论到了。6月份在南京世界人工智能大会(GAITC)也举行了一次金融科技分论坛。

  在 CCKS2019 的评测竞赛上,文因互联和东南大学一起发布了包括人物抽取、面向金融领域的事件主体抽取、公众公司公告抽取三个评测任务。这个评测任务也代表着自动化文本处理在金融领域里已经开始进入主流视野,大概有1000多个队参加。后来这个问题到了2020年、2021年,基本上就已经是公认的可以被解决的问题了。但回到2016年的话,大家会认为这个问题很难,是没办法解决的。

  到2019年,我们又再次认识到整个知识图谱其实是一个技术栈,它不是一个技术,是一大堆技术。比如说数据、表格这些底层的东西叫图谱(Graph),但在上层还有知识。2019年前后,大家逐渐更深刻地认识到了知识图谱一定不仅仅是图谱,它是知识 + 图谱。

  所以可以看到在不同的层级上都有相应的金融领域应用,比如在证券领域,为什么要进行规则建模,因为监管在券商场景需要进行大规模的合规和审批的流程自动化。在信贷和银行场景里也一样,信贷合规、信贷反粉饰、信贷数据集成、风险图谱、自动化生成BI报表,其实都有相应知识图谱支撑。2019年,知识图谱技术如何在每个层级去应用去落地相对清晰了。

  2019年,大家也意识到知识图谱为什么需要“知识”,而不仅仅是需要“图谱”。知识很抽象,这里先不从哲学角度去理解什么叫知识,可以从应用角度理解什么叫知识。其实本质上来说,知识的价值就是去驱动信息处理的自动化,所以先别管知识和数据的区别,核心就是:光是数据没有办法去做流程自动化,但是有了知识,也就是大量的各种业务规则,就可以做流程自动化。

  所以这就解释了另外一件事情,为什么恰好是在2019年金融领域里的 RPA(机器人流程自动化) 开始突然像雨后春笋一样冒出来,其实就是时候到了,瓜熟蒂落。

  2019年出现了一个非常关键的破局点,就是监管的力量。2019年前后证监会提出了监管科技3.0,这是一个非常重要的纲领性文件,这份文件启动了之后三四年的金融流程自动化。它提出了全覆盖无死角的监管要求。以前的金融文档是用人来读的,所以不可能全量地被监管,可能 90% 以上最终都没有被真正监管到。但现在使用技术手段后,终于第一次可以做到全覆盖、无死角的监管。

  从2018年证监会提出监管科技总体建设方案到2019年开始落地,三年之后(2022年)从技术上已经有能力实现监管3.0了。这也是在通过监管科技倒逼所有的金融机构来进行流程自动化,金融机构不可以像过去那样用人工去处理所有流程,必须用机器,因为监管方已经用机器了,你这边能不用机器吗?不可能的,这是矛和盾的问题。

  所以2019年7月,知识图谱非常有效地支撑了科创板审核的关键流程,也是中国第一次实现了 IPO 审核中利用自然语言处理的方法去构造知识图谱,上交所也是在2019年第一次有了它的上市公司知识图谱。文因互联也参与了其中一部分工作。再值得一提的是,2019年文因互联也帮助股转系统——也是现在的北交所——构造了股转系统的第一套知识图谱。

  2019年也面临一些新的问题,如数据结构化问题、数据呈现问题、还有各种细粒度的自动化监管问题等。另外也发现了更多银行精细化运营问题,包括集中作业问题、获客问题、客户防流失问题等,比起2018年,涌现了更多细分场景。

  2019年核心take home message(干货要点)是:知识图谱的核心不仅仅是图谱,它更重要的是业务知识,这些知识才是图谱建模的核心,它能够帮助进行任务的自动化。

  2020年上半年疫情期间,大家都在家里面办公,在这个过程中人们更加深刻地理解了什么叫自动化。自动化不只有一种自动化,而是递进的有四种不同的自动化,即数据结构化 → 流程自动化 → 业务服务化 → 服务开放化。

  我们在这里可以套用自动驾驶的5级分类。首先把有智能金融之前的BI(商业智能)和大数据分析看成自动化的L1,他们主要是利用现有的结构化数据进行分析,要解决的是一些相对简单的报表和数据关联展示问题。

  数据结构化是L2级自动化,它解决的是如何机器来处理数据“搬运”的问题,比如从一个表单里搬运到另一个报表里的问题。特别是它并不是依赖现有的结构化数据,而是要能动态地创造新的结构化数据。它是“手”的自动化。

  流程自动化是L3级自动化。当我们有了结构化数据,就可以把很多繁琐、重复的手续、过程给自动化。比如反复核对财务报表数据是不是能对齐,IPO文件先后是不是一致,描述是不是合规,这些费眼的事情,可以自动化掉。

  业务服务化是L4级自动化。在L3级我们往往实现的只是单一工序的自动化,但是我们会逐渐发现,这些工序的上下游、兄弟部门之间都有自动化的需求,而且很多工序一旦自动化了,就可以被重用,减少组织内浪费。于是,这些工序就变成了组织内部的“服务”。相互复用的服务的集群,就构成了企业内部的“中台”,也就是企业的“大脑”,帮助企业去敏捷地响应市场。

  服务开放化是L5级自动化。在L4级,企业内部形成了可复用的服务,那必然会进一步产生突破组织边界的协作需求。为什么我这里优质的服务不可以提供给其他组织呢?为什么我非得自己开发所有的服务呢?这就产生了“分布式组织”、“开放企业”的需求,例如“开放银行”。跨组织协作最大的困难是信任问题,需要诸如分布式智能合约系统、分布式身份、可追责账本等技术来支撑,这些也都是知识工程技术的范围。知识工程让我们“自动化心”,即建立组织之间的相互信任问题。

  这四种自动化也可对应各种不同的业务场景,并不是说非要到 L5 才行。比如说数据的结构化(L2)核心是帮助用户提高操作效率;流程自动化(L3)帮助用户提高产品质量,比如券商 IPO 团队自动化写招股说明书、自动化审核,这都是提高产品质量;业务的服务化(L4)帮助用户提高产品能力,比如像银行集中作业中心或者银行产品中心,这两者产品质量的提升和产品能力的提升,都是帮助用户提高抢市场能力和敏捷产品创造能力。服务开放化(L5)如开放银行、开放投行,是提高跨组织的合作效率,将来有可能在和 Web 3.0技术的融合下,来支撑各种分布式自治组织(DAO)的应用。

  到2020年,整个领域的宏观图景就逐渐清晰了。以前有人会攻击说,知识图谱无非是降低一些成本,对于这个领域整体上来说意义不大。但是到了2020年,可以发现从2018年开始的金融改革,使整个领域发生了天翻地覆的变化。

  新的应用、新的场景雨后春笋一样冒出来,比如 ESG(环境、社会责任、公司治理),国家开始要求环保,企业要承担社会责任——过去一年大家看到很多平台型企业社会责任的讨论——其实在2019年和2020年就已经有了,但是这些新的投资场景,比如ESG基金、ABS(资产证券化)场景、REITs(房地产信托投资基金,如基础设施证券投资基金)场景,这种新型品类的资产怎么去发行?

  传统方法很难有效率地做到,必须用技术手段,所以恰恰就是在2020年看到很多金融机构包括平安、招商,还有很多城商行、农商行都开始数字化转型,开始流程操作自动化,这跟整个大环境是分不开的,在这个过程中抢市场的能力极其关键。怎么去抢钱?需要敏捷产品创造的能力,不能再用传统的人工的方法。

  这就是为什么在2020年大家突然觉得这两种自动化被市场接受了,出现了各种各样的新业务,像自动审核、自动化写作,还有持续评级都出现了。之后到2021年,债券领域也发生了巨大的变化,因为取消了债券强制评级,一次性评级必须变成持续评级,持续风险监控。那怎么持续?必须用技术,手工是做不到的。比如像交易所之前的数字转板,还有注册制的实现,都离不开机器自动化处理,因为海量的数据如果不能及时处理的话,这种应用是完全不可能实现的。

  2020年,我们意识到各种场景的自动化都离不开知识图谱技术,所以每个阶段不管是抢市场,或是扩展业务场景,都需要用知识图谱技术,包括底层的自然语言处理技术,还有更上层的规则管理系统技术,推理机技术,分布式合约技术,大家都想得越来越清晰了。

  2021年,知识图谱有力地支撑了科技监管,财务审核、反粉饰审核、合规审核预警、自动化审核、自动化问询,这些核心监管系统都有知识图谱技术在底层做有力支撑。11月北交所开始运营,背后就有大量的这些智能系统的支撑。北交所作为世界上监管企业数量最多的交易所,这些基于知识图谱的系统的成功,证明经过5年的努力,在证券领域里已经完全证明了知识图谱的有效性。

  现在我们可以非常有信心地说,知识图谱的标准件已经全面赋能了主流的金融场景,包括监管、资管、保险、银行、证券和各种通用领域,现在都有相对成熟的金融知识图谱的应用。

  未来到底是什么样的?其实是一个“左右互搏”的过程。现在在投行领域,机器已经可以自动化生成文稿,评级公司在自动化地写评级报告,券商在自动化地生成招股说明书、债券募集说明书、ABS专项募集书,以上文档均可以用机器自动化生成。

  在投行场景里的各种审核、质控,现在都可以用机器来做,一份600页的招股书,人工审核要用几十天的时间,机器5分钟就能把自动抓住的几千个点全部审完。而在审核端,公众公司的董秘、证代收到监管机构发来的问询函,其底稿往往也用机器自动化生成的。

  所以未来两边都是机器 + 人,文档的生成端是用知识图谱技术生成各种文档,文档的审核端也是用知识图谱技术武装起来的各种机器人。这个过程中有海量的知识建模,像某监管机构大概有100万字的领域知识,最后转化成专家知识,转化成成千上万条规则。当然转化过程不仅是用人工来做,也需要用自然语言处理的方式来挖掘这些规则。用机器生成文档、也审核文档,所以就是机器 + 人的“左右互搏”。也就是说,如果未来你的金融机构里只有人没有机器的话,相当于在裸奔,因为别人都是用大规模的机器人军团武装起来的。

  长远看,2021年并不是整个世界的终点。相信未来会看到更多应用场景浮现出来。如果把视野扩的更宽广一点,不局限在这两年,也不局限在金融领域,会看到在各种不同领域里都出现同一种趋势,就是企业一直在说数字化转型。这个词困惑了我很多年,什么叫数字化转型?

  到了2021年年底我终于想明白了,它的本质就是所有的企业都要有一个“CPU”。因为企业上面都是各种核心的业务系统,包括 BPM 系统、ERP 系统, CRM 系统等等,传统企业的核心 IT 系统底下都是数据库。数据是用来生成报表的,所以数据库里出来的东西你用人工去查询、处理。但是未来的企业将会发生一个巨大的范式变迁,就是它最底层的核心资产不再是数据,而是知识。

  所以大家以前老说大数据,但前段时间吴恩达说要告别大数据,拥抱小数据。小数据是什么?小数据其实就是知识,就是企业的流程知识和业务知识,它要沉淀下来成为企业的核心资产,成为企业赋能业务演进的基础设施。

  所以金融企业过去5年间,能够正常的看到财务知识、审核知识、信贷知识、风控知识都在不断的沉淀,而这些沉淀促使企业内部形成一个业务中台。在不同的机构里叫法虽不一样,有的叫业务中台,有的叫 AI 中台,有的叫统一流程平台,有的叫数字员工系统,但本质上都是一样的东西:它是一个赋能的系统,底层要有知识库来管理大量的知识,上面不断赋能各种不同的业务系统,实现敏捷的业务演进。

  到了2021年,我们豁然开朗,为什么知识图谱对这样的领域是有价值的,所有的这些应用场景已经非常清晰。它不是孤立的,它是整个大逻辑的核心组成部分。

  所以向前看,我想整个20年代应该是一个“Roaring Twenties” ——借用美国100年前的这个词——2020年代应该也是 Roaring Twenties,应该是各种新的场景不断涌现的过程。Glückliche Zwanziger 是变迁的时代。