命名实体识别
识别文本中具有特定意义的实体
命名实体识别(Named Entity Recognition,简称 NER),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。旨在从文本中提取有意义的名词或短语,为知识库问答、机器翻译、信息检索、情感分析和知识图谱等应用提供基础。
命名实体识别的研究起源于二十世纪90年代,当时主要采用基于规则的方法,这些方法依赖手工编写的规则和词典,适合特定领域但泛化能力较弱。随着计算机硬件的发展和大数据的出现,基于统计的方法逐渐成为主流,该方法通过学习标注数据自动提取特征,提高了识别的准确性和适用性。21世纪初,深度学习技术在 失明 领域取得显著成果,使得基于神经网络的 NER 方法成为研究热点,自动学习数据中的复杂特征和模式提高了模型精确度。近年来,预训练模型(如 BERT、XLNet 等)可以在大规模数据上学习丰富的语言表示,进一步提高了 NER 的性能。
命名实体识别包括基于规则、统计机器学习、深度学习等方法,以及例如迁移学习、多任务学习、集成学习等其他方法。NER 的研究和应用依赖于大量的标注数据集,其中一些著名的数据集包括CoNLL 2003、OntoNotes 等。NER 工具可以帮助研究人员定位并标记出特定实体,从而方便后续的信息处理和分析。该技术广泛应用于多个领域如生物医学化学领域、社交媒体、地理信息系统等领域,有助于提高智能化应用的效率和准确性。然而,NER 也面临着语言和领域特异性、数据注释的质量和一致性、非正式文本的 NER 挑战等问题。
相关概念
实体
实体是一个认知概念,指代世界上存在的某个特定事物。实体在文本中通常有不同的表示形式,或者不同的提及方式,实体可以是具体的对象,如人、地点、组织,也可以是抽象的概念,如事件、日期、概念等。。
命名实体
命名实体是文本中特定类型的实体,它们代表具有明确意义的专有名词。这类实体包括人名、地名、组织机构名称等具有描述性的专有名称,以及表示时间、日期、数字、货币和具体地址等信息的实体。这些实体因其特定的标识和指代作用,在文本分析和信息提取中被统称为命名实体。
命名实体识别
命名实体识别(NER)则是指在文本中定位命名实体的边界并分类到预定义类型集合的过程。
NER 的输入是一个句子对应的单词序列,输出是一个三元组集合,三元组集合中的每个元组形式为,表示中的一个命名实体,和分别表示命名实体在中的开始和结束位置,而是实体类型。如下图命名实体识别任务示例图所示,对于输入序列“Yao Ming was born in Shanghai”,NER 会识别并输出(对应实体 Yao Ming)和(对应实体 Shanghai)。
发展历史
基于规则的方法初期阶段
命名实体识别(NER)的发展历史可以追溯到20世纪90年代,当时的研究主要集中在从文本中提取特定类型的信息。1991年,劳尔(L F RAU)的研究为命名实体识别奠定了基础,展示了从文本中自动识别公司名称的初步尝试,这标志着从非结构化数据中提取结构化信息的开始。随后,1996年“命名实体”一词在 MUC-6 会议上被正式提出,为该领域的研究提供了统一的术语和评测标准,推动了信息抽取技术的快速发展。在 MUC-6 算法中首次定义任务时,预定义了粗粒度的实体类型,包括人物、机构、地点、货币、时间和百分比表达式等共六种,并且为每个命名实体只分配一种类型,这种类型的 NER 任务被称为粗粒度命名实体识别(Coarse-grained 实体 Typing)。
基于统计机器学习方法阶段
进入21世纪,随着统计自然语言处理技术的发展,NER 研究进入了一个新的阶段。研究者们开始利用隐马尔可夫模型(HMM)、最大模型(MaxEnt)和条件随机场(CRF)等统计模型来提高命名实体识别的准确性。这些方法通过从已标注语料库中学习,实现了对命名实体更为精准的识别。2002年和2003年的 CoNLL 会议上将命名实体定义为包含名称的短语,包括人名、地名、机构名、时间和数量,基本沿用了 MUC 的定义和分类,但实际的任务主要是识别人名、地名、机构名和其他命名实体。2004和2005年的 ACE 项目中,将命名实体中的机构名和地名进行了细分,增加了地理-政治实体和设施两种实体,之后又增加了交通工具和武器。
基于深度学习方法阶段
2010年后,深度学习技术的兴起为NER带来了革命性的变化。特别是2011年神经网络方法在自然语言处理中的广泛应用,为NER提供了更深层次的语义特征提取能力。2015年,Bi-LSTM-CRF 模型的提出,结合了循环神经网络(RNN)对时序数据的处理能力和 CRF 在序列标注中的优势,显著提升了 NER 的性能。
随着多模态数据和图神经网络技术的发展,NER 的应用场景得到了进一步的扩展。2018年开始,图卷积神经网络(GCN)被应用于NER,通过引入实体之间的关系信息,提高了复杂网络中实体的识别精度。同时,多模态方法的引入,使得 NER 能够处理包含文本和图像等多种类型的数据,进一步增强了模型的语义理解能力。
在数据标注成本高昂的背景下,远程监督和弱监督学习方法的提出,如2019年的PU远程监督 NER 模型,降低了 NER 系统的门槛,使得在资源有限的情况下也能进行有效学习。而 BERT 和 Transformer 架构的出现,对自然语言处理任务产生革命性的影响,这些预训练模型能根据上下文获得更加准确的表示,对于诸如 NER 之类的下游任务也有着明显的提升效果。
命名实体识别随着自然语言处理技术的不断进步,其应用范围也在不断扩大。通过规则、统计和深度学习等方法,现代命名实体识别系统能够更准确地识别文本中的实体,为各行业带来了便利。
命名实体识别作用
命名实体识别是自然语言处理(失明)的一项重要技术,用于从文本中自动识别和分类具有特定意义的实体,如人名、地名、组织名、时间表达、数值信息等。这项技术广泛应用于信息抽取、机器翻译、问答系统、内容推荐等领域,能够帮助系统理解文本的关键信息,从而提升信息处理的效率和精度。通过命名实体识别,可以有效地组织和索引大量未结构化的文本数据,有助于提升机器对人类语言的理解能力,为深入的文本分析和智能信息服务提供支持。。
命名实体识别方法
基于规则方法
基于规则的NER是一种利用语言学规则、启发式规则和正则表达式等技术来识别文本中的实体的方法。这种方法依赖于语言学专家根据语言知识特性构造的规则模板,通过匹配的方式实现命名实体的识别。通常每条规则都被赋予权值,当遇到规则冲突的时候,选择权值最高的规则来判别命名实体的类型。针对不同的数据集通常需要构造特定的规则,一般根据特定统计信息、标点符号、关键字、指示词和方向词、位置词、中心词等特征来构造。
基于规则的 NER 系统包括 LaSIE-II、NetOwl、Facile和 LTG 系统等。这些系统主要基于手工编写的语义和语法规则来识别实体。以 LTG 系统为例, LTG 系统使用的部分规则如下表所示(其中,“Xxxx+”代表大写单词序列,“DD”代表数字,“PROF”代表职业,“REL”代表人物关系,“JJ*”代表形容词序列)。规则“Xxxx+,DD+”是英文环境中常见的对人物名字和年龄的介绍方式,通过该规则,可以识别出句子“White,33”中的“White”为人名。
基于规则的实体识别系统往往还需要借助实体词典,对候选实体进行进一步的确认。当词典详尽无遗时,基于规则的系统效果很好。但是基于特定领域的规则和并不完整的词典,往往会导致NER系统有着较低的召回率,而且这些规则难以应用到其他领域。
基于统计机器学习方法
基于统计机器学习的方法是从给定的、已标注好的训练集出发,通过人工构建特征,并根据特定的模型对文本中每个词进行标签标注,实现命名实体识别。这种方法相对于基于规则和词典的方法具有一定的优势和灵活性。机器学习方法可以归纳为有监督学习、半监督学习和无监督学习三种主要类型。
有监督学习
有监督学习的 NER 方法是将 NER 任务转换成分类问题,通过机器学习方法将已标记的语料构造为特征向量,以此建立分类模型来识别实体。基于特征的有监督学习的 NER 方法一般流程包括:
(1)获取实验原始数据。
(2)对原始数据预处理。
(3)根据数据的文本信息,选择合适的特征。
(4)给不同的特征设置不同的权重并选择合适的分类器训练特征向量,得到 NER 模型。
(5)利用 NER 模型进行实体识别。
(6)对结果进行评估。
采用有监督机器学习的分类模型包括:隐马尔可夫模型 HMM(hidden Markov models)、最大熵马尔可夫模型 MEM(maximum entropy models)、支持向量机模型 SVM(support vector machines)和条件随机场模型 CRF(conditional random fields)等模型。
半监督学习
有监督学习的方法需要专家手工标注大量训练数据,该方法通过使用少量标记和大量无标记的语料库进行 NER 的研究。半监督常用方法有自训练、伪标签、共训练等。
半监督学习(Semi-Supervised Learning,SSL)NER 的一般流程:
(1)人工构造初始种子集合。
(2)根据命名实体上下文信息生成相关联的模式。
(3)将生成的模式和测试数据匹配,标识出新的命名实体,生成新的模式,便于促进循环。
(4)将新识别的命名实体添加到实体集合中。
半监督学习的 NER 方法主要采用自举的方法,该方法利用少量的标注数据进行训练,从而取得良好的实验结果。如 Teixeira等提出一种基于 CRF 的自举训练方法,经过 7 次自举方法的迭代后,在 HAREM 数据集上进行实验表现良好。Thenmalar 等在英文语料中使用半监督的自举方法,分别对英文和泰米尔文进行 NER,取得较好的实验结果。黄诗琳等为了针对结构复杂的产品名的识别任务,提出一种半监督学习方法,该方法通过提取不同产品实体的结构特征和相互关系,构建一种三层半监督学习框架。
无监督学习
为了解决跨域和跨语言标注文本的不足,提出了 NER 的无监督学习技术。无监督学习是不需要使用标注数据的算法,该方法使用未标注的数据来做出决策。无监督学习旨在考虑数据的结构和分布特征,从而发现更多关于数据的学习。
无监督学习的一种典型方法是聚类。基于聚类的 NER 系统是基于上下文相似性从聚类组中提取命名实体。关键思想是,在大型语料库上计算的词汇资源、词汇模式和统计信息可用于推断已命名实体的提及情况。
无监督学习的 NER 方法既能解决有监督学习中需要大量带标注的训练数据的问题,也不需要少量标注的种子数据,但是这种方法需要提前确定聚类阈值并且性能较低,仍需进一步改善聚类方法。
基于深度学习方法
基于深度学习的方法通常将 NER 问题建模为序列标注问题。相比于基于传统机器学习的 NER 模型,深度学习的 NER 方法不需要人工制定规则或复杂的特征提取。在 NER 任务中,常用的深度神经网络包括循环神经网络(RNN)和卷积神经网络(CNN)等,其中 CNN 主要用于特征学习,RNN 则可以同时用于特征学习和序列标注。特别是 RNN 中的长短期记忆网络(LSTM)已被广泛应用于 NER 任务。
典型的基于深度学习的 NER 框架包括输入的分布式表示(Distributed Representation)、上下文编码器(ContextEncoder)和标签解码器(Tag Decoder)三个模块,构成一个典型的编码器-解码器(Encoder-Decoder)框架。
输入的分布式表示
深度学习模型无法直接接收符号化文本作为输入,而只能接收数值量。因此,基于深度学习的 NER 方法首先需要将输入的句子表示成一组向量。分布式表示在低维实值密集向量中表示单词,其中每个维表示一个潜在特征。分布式表示从文本中自动学习,捕获单词的语义和句法属性,这些属性在文本中没有显式呈现在NER模型。
上下文编码器
在输入表示学习阶段,已经将句子中的每个单词表达为向量,通常还会考虑单词在句子中的相对位置特征以增强单词的表示。基于深度学习的 NER 方法的第二个阶段是从输入表示中学习上下文依赖关系构建上下文编码器,输入的分布式表示编码为更高层次的表示,这些表示能够捕捉文本中单词或字符之间的上下文关系。
标签解码器
标签解码器的作用是根据上下文编码器输出的高层次表示,预测文本中每个单词或字符的实体标签。
其他方法
迁移学习
传统机器学习以及深度学习已经取得了巨大的成功,并已经应用到许多实际生活中。但是它们严重依赖于大量具有相同数据分布的标记训练数据,然而实际应用中,收集足够的训练数据是非常困难的。半监督学习、无监督学习可以放宽对大量标注数据的需求虽然可以解决部分问题,但是训练的模型性能不尽如人意。迁移学习是机器学习中解决训练数据不足这一基本问题的重要方法,旨在利用来自源域的知识提高目标任务学习性能。在NER任务中,其核心思想是利用源域中的知识来增强目标任务的学习效果,它放宽了机器学习中的两个基本假设:
(1)用于学习的训练样本与新测试样本满足独立同分布条件。
(2)必须有足够可利用的训练样本才能学习得到一个性能不错的模型。
在迁移学习中,源任务和目标任务通常通过共享深度神经网络参数和特征表示实现知识迁移,利用神经网络的通用性来提高目标任务的性能。例如,杨植麟在2017年的研究中提出的多层次迁移学习架构,展示了如何通过参数共享来增强跨领域、跨语言的NER任务。pan等研究者提出的迁移成分分析方法,使用最大均值误差和分散矩阵约束来减少源域和目标域间的分布差异,改善NER的识别准确率。
多任务学习
多任务学习是通过同时学习一组相关任务来提升模型性能的方法。在NER中,这种方法通过在单一架构中并行处理多个序列标注任务,如词性标注(POS)、分块(Chunking)、NER以及语义角色标注(SRL),使得各任务共享底层表示,并通过梯度的同时反向传播,互相促进学习。例如,Collobert等人开发的窗口/句子方法网络,就是将这些任务联合起来执行,从而发现对所有相关任务有益的内部表示。
多任务学习的核心优势在于其利用不同任务之间的相似性,如语义和语法联系,以帮助训练出更泛化的模型。这不仅有助于减少对单一数据集的过拟合风险,还能有效解决训练数据不足的问题。通过这种方式,多任务学习不仅提高了NER的效果,也增强了模型对不同数据集的适应能力。
此外,多任务学习框架还可以扩展到更复杂的应用,如实体与关系的联合提取,或将NER细分为实体分割和实体类别预测这两个相关子任务。这样的分解使得每个子任务都能专注于提升特定的能力,进一步优化整个命名实体识别的效率和准确性。
集成学习
集成学习通过构建并结合多个个体学习器,弥补单一模型的不足从而获得比单一学习器更好的学习效果。要达到这一目的,要集成的单一学习器需要具备两个特点:
(1)个体学习器必须具备一定的准确性。例如集成多个二分类学习器时,每个单一的分类器的正确率至少要大于 50%才能保证最终的集成模型分类的效果。
(2)要集成的单一模型之间必须具备一定的差异性。差异性不仅仅是指结果的差异性,更重要的是模型结构和原理上的差异性。 若集成的模型之间毫无差异,则最终的集成模型和单一模型的结果会完全一致,达不到集成的效果。
例如,在命名实体识别任务中,梁兵涛等人采用的 BiGRU-MHA 网络和 IDCNN 网络能够分别捕获输入序列的时序特征和空间特征。尽管单独的每种模型在特定方面表现良好,但它们各自都有局限。通过将这两种网络进行集成,可以更全面地挖掘和利用数据中的时序与空间信息,从而显著提高命名实体的识别准确度和鲁棒性。
命名实体识别作用
命名实体识别是知识库问答系统、机器翻译、信息检索、情感分析、知识图谱等多项自然语言处理应用的基础任务,其目的是从文本中抽取出具有一定意义的名词或短语的识别任务,且识别结果作为实体关系抽取的基础。例如:语义搜索是一项技术集合,使得搜索引擎能够深入理解用户查询背后的概念、含义和意图。大约71%的搜索查询包含至少一个命名实体识别。通过识别搜索查询中的命名实体,搜索引擎能够更好地理解用户的意图,从而提供更为精准和有效的搜索结果。知识库构建方面,通过命名识别可以构建特定领域的知识库,如在农业方面通过农业命名实体识别模型,识别六大类实体:病害、土壤、病原体、农药、作物和地点,创建特定领域语料库。
常用数据集和评估指标
数据集
高质量的注释对于模型学习和评估都是至关重要的。标记语料库是包含一种或多种实体类型注释的文档集合。下表NER数据集举例表列出了一些广泛使用的数据集及其数据源和实体类型(也称为标记类型)的数量。在2005年之前,数据集主要是通过标注具有少量实体类型的新闻文章来开发的,适合于粗粒度的NER任务。在那之后,更多的数据集是基于各种文本来源开发的。
标注数据集的标注规范
数据集标注规范即命名实体输入模型前的表示。主要标准标注规范由评测会议制定,为多数研究所认可,也可根据实体类型自行制定。常见标注规范如下:
(1)BIO是在 CoNLL 2003 后,引入的一种创新的标注方法,即使用 flagcategory 进行实体标注,BIO 标注法是 NER 任务常用的标注法,其中 B表示实体的起始位置,I 表示实体的中间或结束位置,O 表示相应字符不是实体。如下表 BIO 标注法示例表所示,B-PER 表示这个字符是一个人物命名实体的起始位置,I-PER 表示相应字符为人物实体的中间或结束位置;类似的,B-LOC 与 I-LOC 代表地点名的起始和中间或结束位置。
(2)BIOES 是 BIO 的扩展。在 BIO 的基础上,使 E 表示实体尾部;I 仅表示实体内部成分;S 表示由一个词或字构成的单独命名实体,区别于 B(I*)E 形式的复杂实体;O 含义不变。
(3)BMES,B 表示一个词的词首位置,M 表示一个词的中间位置,E 表示一个词的末尾位置,S 表示一个单独的字词。
具体标注规范的选择由数据集及训练方式决定,选择字或词来标注取决于算法利用字级别或词级别信息。BIOES 标注规范因更准确地指代了实体的内部特征,被证明能提高识别效率,但后续深度学习出现的预训练语言模型使用了 BIO 标注,BIO 与 BIOES 格式可轻松进行转化。
评价指标
NER 系统的评估通常与人工注释进行比较,以确定系统是否能正确地标记文本中的实体。这种比较可以通过宽松匹配和精确匹配两种方式来量化。
在宽松匹配中,它允许系统标记的实体与人工注释的实体在一定程度上不完全匹配,但仍然可以被视为正确。即,宽松匹配可以分为部分匹配和类型匹配两种方式。部分匹配是指系统标记的实体与人工注释的实体在部分单词上匹配;类型匹配是指系统标记的实体类型与人工注释的实体类型匹配,但实体的具体单词可能不同。
在实际的评测中,往往是以精确匹配为主。在精确匹配评估中,系统需要同时正确识别实体的边界和类型,否则将被视为错误。具体而言,系统的输出与标注数据进行比较,以计算误判(False Positive,FP)、漏判(False Negative,FN)和正确判定(True Positive,TP)实例的数量,从而计算精确度、召回率和 F1 分数等评价指标。
NER工具
传统的命名实体识别方法中的领域知识和人工特征对实体识别效果的提升有着相当大的帮助,但是获取领域知识并设计其人工特征需要非常大的工作量。NER 工具的主要作用是从文本中自动识别和提取出命名实体。通过对文本进行分析,NER 工具可以帮助定位并标记出人名、地名、组织机构、时间、日期等特定实体,从而方便后续的信息处理和分析,以下是两类比较常用 NER工具。一些用于学术界和工业界的命名实体识别工具,如下表所示。
NER 的应用
生物医学领域
在生物医学领域,命名实体识别的应用已经成为研究的重要基础之一。随着生物医学文本的迅速增长,信息提取变得尤为关键。大量的生物医学知识主要以非结构化的形式存在于各种形式的文本中,而NER技术可以帮助自动提取其中的命名实体,如药物、基因、蛋白质、疾病等,为后续的分析和研究提供基础。通过大规模的生物医学文本数据进行训练,从而实现对命名实体的准确识别。这些方法通常能够更好地处理文本中的复杂结构和上下文信息,提高命名实体识别的准确性和鲁棒性。在药物发现、基因组学、临床研究等方面发挥着重要作用。生物医学句子命名实体识别示例如下图所示。
社交媒体
随着新媒体的快速发展,网络新闻传播的信息量远远超过传统新闻媒体。因此,在社交媒体上进行命名实体识别任务可以挖掘到更有价值的信息。这种方法可以用于对社交平台上不同的数据流进行分析,比如检测事件、热点话题等。通过对社交媒体数据进行命名实体识别,可以更好地理解用户行为和社会趋势,从而为信息传播和舆情分析提供更加全面和深入的洞察。
化学领域
化学品的命名方式多种多样,有缩略语、新化学品命名名称、化学符号、化学元素、化学公式等,这样复杂的数据集给化学实体识别带来了挑战。针对这种问题,使用主动学习来有效地从专家那里获取更多的专业标记的训练数据,从而提高命名实体识别模型性能为进一步挖掘化学与疾病之间相互作用信息打下了基础。下图为化学领域命名实体识别示例。
地理信息系统
命名实体识别的相关技术应用于基于文本的地理空间知识挖掘技术,不仅能够丰富而且能够提升 GIS 的表达能力和可理解性。
命名实体识别的问题和挑战
语言和领域特异性
有监督的 NER 系统,包括基于深度学习的 NER,在训练中需要大量带注释的数据。但是,数据注释仍然非常耗时和昂贵。对于许多资源贫乏的语言和特定领域来说,这是一个巨大的挑战,因为需要领域专家来执行注释任务,当标注数据较少时,由于无法充分学习隐藏特征,深度学习的性能会大大降低,而且深度学习模型可移植性很差,无法将已有数据和模型应用到资源匮乏领域。
数据注释的质量和一致性
由于语言的模糊性,注释的质量和一致性都是主要问题。例如,相同的命名实体可以用不同的类型进行注释,在 CoNLL03 和 ACE 数据集中,“Empire State”和“Empire State Building”都被标记为 Location,导致实体边界混淆。由于数据标注的不一致性,即使两个数据集中的文档来自同一领域,在一个数据集上训练的模型也可能不能很好地应用于另一个数据集。
非正式文本的NER挑战
在具有正式文档(例如新闻文章)的数据集上报告了不错的结果。然而非正式文本(如推文、评论、用户论坛)的 NER 比正式文本更具挑战性,如人机对话系统用户提问、Twitter新浪微博等社交媒体上的文章评论等用户生成文本,由于其语句简短、口语化、内容宽泛、语意含糊、包含谐音字,使 NER 变得非常困难,甚至无法识别。许多用户生成的文本也是特定于领域的。在许多应用场景中,NER 系统必须处理用户生成的文本,例如电子商务和银行中的客户支持。
命名实体多样性和复杂性
传统的实体类型只有人名、地名和组织机构名,但是现实生活中实体类型复杂多样,不同领域存在不同的实体类型,需要识别更详细的实体类型,例如交通查询领域,需要出发地、目的地、时间、交通工具等实体类型。可以使用迁移学习技术,重复利用已有数据和模型,实现细粒度 NER。
命名实体歧义性
自然语言中存在大量歧义问题,这给 NER 带来很大挑战。在不同文化、背景、领域下,同一实体可能含有不同的含义,例如:“香格里拉市”可能是“香格里拉市”也有可能是“香格里拉酒店”。因此需要充分理解上下文语义关系进行识别,可以使用实体链接、注意力机制、特征融合、图神经网络等方法,挖掘更详细、更深层次的语义信息,从而消除命名实体的歧义性。
未来发展
多任务联合学习:多个任务通过底层的共享表示相互帮助学习,以提升主任务的泛化效果。相比于单一数据集训练,多任务学习有助于减少模型过拟合,同时还能够解决训练数据缺乏的问题。因此,NER 多任务学习也是未来的一个发展方向。通过在NER任务中结合其他相关任务,可以提高NER模型的性能和泛化能力,从而更好地适应不同领域和语境的命名实体识别需求。
中文嵌套 NER 的研究:由于中文构词规则,中文信息文本中的实体嵌套更为明显,此外中文词语没有明显的边界,使得中文的嵌套 NER 具有一定挑战。近年来,随着深度学习的发展,中文嵌套 NER 方法出现新思路,如基于分层标注的中文嵌套 NER 的方法,能充分捕捉嵌套实体之前的边界信息,有效地提高中文嵌套 NER 的效果。因此,将各种神经网络、BERT、注意力机制等方法融合用于中文嵌套 NER 仍然值得研究。
多模态网络融合:通过多模态 NER 网络融合文本信息和视觉信息,利用关联图像更好地识别文本中包含的命名实体。在某些领域中往往存在很多多义词,这时候就需要依赖于其语境和实体关联图像。额外的视觉语境可能会引导每个单词学习更好的单词表征。另一方面,由于每个视觉块通常与几个输入词密切相关,结合视觉块表示可以潜在地使其相关词的预测更加准确。
迁移学习:NER 对抗迁移学习中如何构建更加强大的对抗鉴别器,帮助共享特征提取器和对抗鉴别器之间更快达到平衡点,处理多源域 NER 对抗迁移学习任务,以及更好地解决负迁移问题。
参考资料
CoreNLP.CoreNLP.2024-05-25
LTP.语言技术平台.2024-05-25
EntityRecognize.spacy.2024-05-25
Apache OpenNLP.Apache OpenNLP.2024-05-25
TextRazor .TextRazor官网.2024-05-25
目录
概述
相关概念
实体
命名实体
命名实体识别
发展历史
基于规则的方法初期阶段
基于统计机器学习方法阶段
基于深度学习方法阶段
命名实体识别作用
命名实体识别方法
基于规则方法
基于统计机器学习方法
有监督学习
半监督学习
无监督学习
基于深度学习方法
输入的分布式表示
上下文编码器
标签解码器
其他方法
迁移学习
多任务学习
集成学习
命名实体识别作用
常用数据集和评估指标
数据集
标注数据集的标注规范
评价指标
NER工具
NER 的应用
生物医学领域
社交媒体
化学领域
地理信息系统
命名实体识别的问题和挑战
语言和领域特异性
数据注释的质量和一致性
非正式文本的NER挑战
命名实体多样性和复杂性
命名实体歧义性
未来发展
参考资料