唠唠关系抽取：那些藏在文字里的 “小秘密” 都咋挖出来？

嗨，小伙伴们！不知道你们有没有过这样的经历：刷新闻的时候看到 “某明星和某导演合作新电影”，刷小红书又刷到 “某品牌口红和某美妆博主推出联名款”，这些句子里其实藏着好多 “关系”—— 谁和谁，干了啥，有啥关联。而咱们今天要聊的 “关系抽取”，就是专门从这些文字里把这些 “隐藏关系” 挖出来的技术。可能有人会说 “这听起来好玄乎”，别担心，咱们用唠嗑的方式，一问一答把它讲明白，保证不枯燥！

问：首先得搞清楚，“关系抽取” 到底是个啥呀？用大白话说说呗！

答：其实特好理解！就像你读句子的时候，会下意识找 “谁和谁有关系，是啥关系”。比如 “小明给小红送了一本书”，这里 “小明” 和 “小红” 是 “赠送者” 和 “接收者” 的关系，“书” 是 “赠送物品”。关系抽取就是让电脑像人一样，自动从句子、文章里把这种 “谁（实体 1）- 啥关系 – 谁（实体 2）” 的组合找出来。简单说，就是给电脑装个 “火眼金睛”，让它能看透文字里的关联。

问：那为啥要做关系抽取啊？感觉人工也能找啊，犯得着让电脑来干吗？

答：哈哈，人工找当然行，但架不住文字太多啦！你想啊，每天网上有多少新闻、论文、社交媒体内容？要是靠人一条条找关系，那不得累死，还慢得不行。关系抽取就是让电脑 “批量干活”，比如一下子处理几万篇新闻，把里面的 “公司 – 合作 – 公司”“人 – 任职 – 职位” 这些关系都挑出来，又快又准，省老鼻子事儿了！

问：哦，原来这么有用！那电脑是咋 “看懂” 文字里的关系的？它也会读句子吗？

答：电脑肯定不能像人一样 “读” 句子，但它有自己的 “套路”！简单说，就是先把句子拆成 “小块”—— 比如先找出里面的 “实体”（就是前面说的 “谁”，像人名、地名、公司名），然后再分析这些实体之间的 “联系”。比如看到 “张三在阿里巴巴当工程师”，电脑先认出 “张三”（人名）和 “阿里巴巴”（公司名）这两个实体，再通过 “在… 当…” 这个短语，判断出他们是 “任职” 关系。是不是还挺聪明的？

问：那找实体这一步难不难啊？电脑会不会把 “苹果” 认错？比如有时候是水果，有时候是公司。

答：你这问题问到点子上了！这确实是个麻烦事儿，行话叫 “实体消歧”。比如 “苹果出新产品了”，到底是苹果公司出手机，还是水果店出新品种？电脑得结合上下文判断。要是前面提了 “乔布斯”，那肯定是公司；要是前面说 “果园里”，那就是水果。所以找实体的时候，电脑不光要认词，还得 “看上下文”，不然就容易闹笑话啦！

问：那实体找对了，咋确定他们之间的关系呢？比如 “小明和小红吃饭”，这算啥关系啊？

答：这就得看具体需求啦！关系抽取不是 “一刀切” 的，得先明确 “要找哪些关系”。比如有的场景只关心 “朋友关系”“家人关系”，那 “小明和小红吃饭” 如果没有更多信息，可能就不算；但如果场景是 “社交互动关系”，那 “一起吃饭” 就能算一种互动关系。电脑会根据提前设定好的 “关系类型”（比如任职、合作、亲属、地理位置等），去句子里找对应的 “线索”—— 比如 “任职” 的线索常是 “担任”“任职于”，“合作” 的线索常是 “和… 合作”“联合推出”，然后匹配上对应的关系。

问：那有没有那种句子，关系特别绕，电脑容易搞错的？

答：太多啦！比如那种长句子：“张三的同事李四，和王五创办的公司合作了一个项目”。这里面实体就有 “张三”“李四”“王五”“公司”，关系还套着关系 ——“张三 – 同事 – 李四”“王五 – 创办 – 公司”“李四 – 合作 – 公司”。电脑要是没处理好，很容易把 “张三” 和 “公司” 硬扯出关系，或者漏了 “王五和公司” 的创办关系。还有那种有歧义的句子，比如 “老张借了老李 100 块”，到底是老张借给老李，还是老李借给老张？人有时候都得琢磨琢磨，电脑就更得费劲儿分析上下文了。

问：那现在做关系抽取，常用的方法有哪些啊？能不能用大白话讲两种？

答：当然能！现在主流的方法大概分两类，一类是 “传统方法”，一类是 “深度学习方法”。传统方法就像 “背模板”—— 比如提前告诉电脑，只要看到 “[人名] 在 [公司名] 任 [职位名]”，就提取 “人名 – 任职 – 公司名” 的关系。但这方法有个缺点，模板太死了，换个说法比如 “[公司名] 聘请 [人名] 当 [职位名]”，它就不认了。而深度学习方法就灵活多了，相当于给电脑 “喂” 了好多句子，让它自己学规律 —— 比如学 “任职” 相关的句子不管怎么说，核心都是 “人” 和 “公司” 有关联，不用死记模板，就算遇到新说法，也能大概率猜对。

问：那深度学习方法这么厉害，是不是就不用传统方法了？

答：也不能这么说！各有各的用处。比如如果某个场景里，句子的格式特别固定（比如公司财报里的 “XX 职位：XX 姓名”），那用传统模板法，又快又准，还不用费劲 “喂” 数据。但如果是新闻、社交媒体这种句子格式乱七芭蕉的场景，深度学习方法就更靠谱。所以现在很多时候是 “结合着来”，简单场景用模板，复杂场景用深度学习，怎么省事怎么来！

问：刚才说 “喂” 数据，那做关系抽取是不是得准备好多数据啊？这些数据是啥样的？

答：对，数据太重要了！就像教小孩认东西，得给他看好多例子。关系抽取的 “例子” 就是 “标注好的数据”—— 比如一句话 “周杰伦创作了《青花瓷》”，得明确标出来 “周杰伦”（实体 1，类型：人名）、“《青花瓷》”（实体 2，类型：作品名）、“创作”（关系类型）。这样电脑才能照着这些例子学，知道 “谁和谁，啥关系” 是咋对应的。要是没这些标注数据，电脑就跟瞎了似的，啥也学不会。不过标注数据也挺费劲儿的，得人工一条条标，所以现在也有方法能 “少用点数据”，或者 “自动生成点数据”，省点人力。

问：那数据不够的时候，电脑还能学好关系抽取吗？有没有啥小技巧？

答：有啊！比如 “远程监督” 就是个常用的技巧。举个例子，咱们知道 “姚明” 和 “休斯顿火箭队” 有关系（任职），那不管在哪个句子里看到 “姚明” 和 “休斯顿火箭队” 一起出现，就先默认他们是 “任职” 关系，不用人工标了。当然，这样肯定会有错的（比如句子 “姚明去现场看休斯顿火箭队比赛”，其实不是任职关系），但电脑可以自己再筛选一遍，把明显不对的去掉。这样就能用很少的人工标注，搞到大量 “半准” 的数据，再接着学，也能学得不错。

问：除了从句子里抽关系，能不能从整篇文章里抽啊？比如一篇小说，里面人物关系可复杂了。

答：当然能！这叫 “篇章级关系抽取”，比句子级的难一点，但现在也能做。比如一篇小说里，前面写 “林黛玉葬花”，后面写 “她把花埋在梨树下”，这里的 “她” 指的是 “林黛玉”，电脑得先搞清楚 “代词指的是谁”（行话叫 “共指消解”），然后再把前后文的信息串起来。再比如，文章里没直接说 “贾宝玉和薛宝钗是夫妻”，但前面说 “他们结婚了”，后面说 “夫妻二人一起赏月”，电脑得把这些信息拼起来，才能判断出他们的夫妻关系。所以篇章级抽取，关键是让电脑 “读完整篇文章，把信息串起来”，而不是只看一句话。

问：那关系抽取在实际生活里，到底用在哪儿啊？能不能举几个咱们平时能接触到的例子？

答：太多啦！比如你用 “企查查”“天眼查” 查公司的时候，上面显示的 “XX 公司和 XX 公司有投资关系”“XX 人是 XX 公司法人”，这些信息很多就是靠关系抽取，从公司财报、工商信息里自动抽出来的。再比如你刷短视频，平台给你推 “XX 明星的新电影”“XX 品牌的新品”，背后也可能用到关系抽取 —— 先抽出 “明星 – 主演 – 电影”“品牌 – 推出 – 新品” 这些关系，再给你推相关内容。还有学术论文数据库，比如 “知网”，你搜 “XX 作者和 XX 作者合作的论文”，也是关系抽取帮着找的合作关系，特方便！

问：那关系抽取会不会出错啊？比如把 “合作关系” 错当成 “竞争关系”，这会不会出啥问题？

答：肯定会出错啊！电脑又不是神仙。比如句子 “A 公司和 B 公司在同一领域展开较量”，电脑可能把 “较量” 当成 “合作”（要是学的时候没见过 “较量” 这个词），就会标错关系。出错了当然会有问题，比如要是用在金融领域，把 “公司 A 投资公司 B” 错当成 “公司 A 收购公司 B”，那据此做投资决策，不就亏大了？所以现在做关系抽取，都会尽量提高准确率，比如多 “喂” 点数据，多优化模型，还会加人工审核的步骤，尽量减少出错的概率。

问：那提高准确率有没有啥小窍门啊？比如让电脑多学几种语言？

答：多学语言倒不是必须的，除非要处理多语言的内容。提高准确率的窍门，主要还是从 “数据” 和 “模型” 两方面下手。数据上，尽量找高质量的标注数据，别让错的数据把电脑教歪了；模型上，现在有很多新的技术，比如让电脑 “更好地理解上下文”（用 BERT 这类模型），或者让电脑 “多考虑实体的类型”（比如人名和地名不太可能是任职关系）。另外，也可以让多个模型一起 “投票”—— 比如三个模型里两个说这是 “合作关系”，一个说 “竞争关系”，就听多数的，这样也能减少出错。

问：普通人能不能用关系抽取啊？比如我想整理一下我喜欢的歌手的合作对象，能不能自己搞个小工具？

答：现在越来越容易啦！虽然自己搭复杂的模型有点难，但有很多现成的工具和平台可以用。比如有些开源的工具（像 HanLP、spaCy），里面就自带了关系抽取的功能，你只要把想处理的文字输进去，就能自动抽出关系。还有一些低代码平台，不用写太多代码，跟着步骤操作，就能自己做一个简单的关系抽取小工具。比如你把喜欢的歌手的新闻、采访稿导进去，就能自动整理出 “歌手 A – 合作 – 歌手 B”“歌手 A – 创作 – 歌曲 C” 这些关系，超方便！

问：那用这些工具的时候，有没有啥要注意的？比如会不会泄露隐私啊？

答：这个必须注意！尤其是如果你处理的是自己的私人信息，或者别人的敏感信息（比如身份证号、电话号码、私人聊天记录），一定要选安全的工具。比如尽量用本地部署的工具（就是把工具装在自己的电脑上，不联网），别用那种需要把数据上传到网上的平台，避免数据被泄露。另外，要是处理的是公开信息（比如新闻、公开的论文），也要注意版权问题，别随便乱用人家的内容。安全和合规，不管啥时候都得放第一位！

问：我听着关系抽取好像都是处理中文的，那它能处理其他语言吗？比如英文、日文？

答：当然能！关系抽取本身是不分语言的，关键是看针对哪种语言做了优化。比如处理英文的时候，电脑会学英文的语法、短语（比如 “work at” 对应 “任职于”），处理日文的时候，会学日文的语序、敬语这些特点。现在很多主流的工具和模型，都支持多种语言，比如处理英文用 BERT 的英文版本，处理日文用日文版本的模型。所以不管是中文、英文还是其他语言，只要有对应的标注数据和优化过的模型，都能做关系抽取。

问：最后再问一个，要是我想入门学关系抽取，该从哪儿开始啊？不用太复杂的那种。

答：入门其实不难！首先可以先搞懂几个基础概念：啥是实体、啥是关系、啥是标注数据，这些咱们今天聊的内容就够入门了。然后可以找个简单的开源工具试试手，比如 HanLP，网上有很多教程，跟着教程把工具装起来，输几段文字，看看它能抽出啥关系，直观感受一下。要是想再深入点，可以学一点点 Python 编程（不用太深入，会基础操作就行），再了解一下简单的模型（比如先从传统的模板法入手，再慢慢接触深度学习的基础）。关键是多动手试，越试越有感觉，慢慢就入门啦！

好啦，关于关系抽取的唠嗑就到这儿啦！其实它没咱们想象的那么 “高大上”，就是电脑帮咱们从文字里挖关系的小工具，平时用的很多 APP、网站背后都有它的影子。希望今天这一问一答，能让你对关系抽取多一点了解，要是以后再听到这个词，就不会觉得陌生啦！

免责声明：文章内容来自互联网，本站仅提供信息存储空间服务，真实性请自行鉴别，本站不承担任何责任，如有侵权等情况，请与本站联系删除。