第三届“达观杯”文本智能算法大赛参赛指南

语言: CN / TW / HK

比赛介绍

2019 年 6 月 28 日,第三届“达观杯”文本智能信息抽取挑战赛正式开赛,同期面向参赛选手开放竞赛结果提交。本届比赛由中国人工智能学会吴文俊人工智能科学技术奖办公室特别支持,达观数据主办,机器之心、CSDN 协办,数十家技术媒体和社区参与合作,由 biendata.com 提供比赛平台。 

本次大赛的任务是信息抽取。 信息抽取(information extraction)是指从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。文本智能抽取是信息检索、智能问答、智能对话等人工智能应用的重要基础,它可以克服自然语言非形式化、不确定性等问题,发掘并捕获其中蕴含的有价值信息,进而用于业务咨询、决策支持、精准营销等方面,对产业界有着重要的实用意义。 

具体来说, 比赛给出一定数量的标注语料以及海量的未标注语料,在 3 个字段上做信息抽取任务。 参赛选手需要动用自己的智慧,结合当下最先进的自然语言处理和人工智能技术,深入挖掘文本文字中词语和句子之间的特征,构建语言模型,实现精准抽取。 

本次比赛的数据来自达观数据。达观数据是国内领先的文本智能处理专家,致力于应用人工智能技术帮助企业实现业务流程自动化。作为文本智能处理领域服务客户数量最多、经验最丰富的技术提供商,文本智能信息抽取将是达观数据持续专注打磨的技术之一。 

本次比赛是达观数据举办的第三届“达观杯”算法大赛。2017 年和 2018 年,达观分别以“个性化推荐”和“文本分类”为主题,主办过两次算法大赛,在全国范围内引起了很大的反响,两次比赛吸引了国内外近万支队伍参赛。其中不乏来自 985/211 等高校及世界五百强企业的选手,这里是自然语言处理爱好者的聚居地。 

本次竞赛总奖金为 7 万 7 千元,前 10 名的队伍可获得证书及奖金,比赛成绩优异的选手将获得吴文俊人工智能科学技术奖的提名推荐机会,排名前 30 名队伍都可获得达观数据招聘的面试直通机会。有意向参赛的选手即日起登录承办方数据竞赛平台 Biendata.com 可获取更多相关信息并下载数据集。

数据详情

本次大赛提供的是一个全新的数据集,旨在促进不同领域下文档多字段的抽取任务研究。训练集有 17000 条,并标注了 3 个字段,共有字段 a 14272 处,字段 b 9037 处,字段 c 8855 处。预测集有 3000 条。比赛将评估参赛选手在预测集上识别这三个类型字段的能力。 

所有文本数据都经过清洗,并且以自然句为单位分句,每一行为一个自然句,之后为其每一个字和标点符号映射一个唯一的索引,即每一个字和标点符号都由一个独立的整数来表示。便于处理,用下划线连接。比如:“欢迎来到达观数据。”被转化为形如“1_2_3_4_5_6_7_8_9”的字符串。

训练集,预测集和大规模未标注语料均由同一份索引表生成,选手可以充分的利用大规模未标注语料去探索字的表示,字与字之间的关系。每一行对应一条文本数据。每一个数字对应一个“字”或“标点符号”。字和字之间用‘_’连接,在对应字段后面标注/a、/b、/c,非字段文本标注/o。 

来看一个具体的例子。 在训练集中,一条数据会以这样的方式呈现:

5401_1744_5661_4958_5661_1921_2229_6371_711_8024_7028_6819_1469_2458_1355_3299_4413_3221_100_5401_1744_4638_7270_6823_6369_1153_100_511

对应的标签则为:

5401_1744_5661_4958_5661_1921_2229/b

6371_711_8024_7028_6819_1469/o

2458_1355/a 3299_4413_3221_100/o 

5401_1744/a 4638_7270_6823_6369_1153_100_511/o

此外,比赛还为参赛选手提供一个大规模的未标注预料供参赛选手预训练语言模型。此数据集是与训练集和预测集出处相同的大规模未标注语料(167 万条),提供给参赛者用于训练语言模型。

赛题解析

本次比赛基本可以归类于命名识别任务。但和一般的任务相比,数据经过了主办方独特的加密,因此不能直接使用预训练模型。不过,选手可以获得一个大规模的未标注语料数据集用来训练语言模型。如何利用这个语料库?怎么才能精准的提取出三个分类的实体? 我们邀请了两位之前类似比赛的获奖选手给所有参赛选手分享一些经验。  

这两位选手是: 

姜兴华,浙江大学计算机硕士 ,研究方向机器学习,自然语言处理,在 ACM-multimedia、IJCAI 会议上发表过多篇文章。在 ByteCup2018 比赛中获得第一名。 

崔德盛,北京邮电大学模式识别实验室 ,主要的研究方向是自然语言处理和广告推荐,曾获 2017 知乎看山杯挑战赛亚军,2017 摩拜算法挑战赛季军,2019 搜狐算法大赛冠军。 

命名实体识别 姜兴华 

命名识别任务(Named-entity recognition),简称 NER,是自然语言处理中的一个非常基础和重要的任务。命名实体识别任务是指在非结构化的文本中抽取出特定意义的实体,包括人名、地名、机构名等。 

命名实体识别是未登录词中数量最多、识别难度最大、对分词效果影响最大的问题,同时它也是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。 

该任务一直是 NLP 领域中的热点研究问题,早期的方法包括基于规则和字典的方法,之后,有研究者基于传统机器学习方法解决该问题。近几年,很多深度学习的方法被提出,并且取得了非常好的效果。 

Bilstm+CRF  [1] 是一个非常强的 baseline 模型,是目前基于深度学习的 NER 方法中最主流的模型。该模型主要包括 Embedding 层,双向 LSTM 层和 CRF 层。 

最近两年,基于语言模型的多任务迁移学习取得了非常大的进步,比如:ELMO [2], GPT [3] 和 Bert [4] 。这些预训练的语言模型在各项任务中都达到了 SOTA 的效果。

ELMO 是基于双向 LSTM 的语言模型,GPT 是单向 Transformer 模型,Bert 是双向 Transformer 模型。NLP 领域已经开始从单一任务学习,发展为多任务两阶段学习:第一阶段利用语言模型进行预训练;第二个阶段在下游任务上 finetune。这些语言模型在命名实体识别任务上都达到了非常好的效果。 

本次比赛提供了全新的数据集,包括一个大规模的未标注的语料和一个 10000 条标注数据的文档多字段抽取数据集。同时,数据集还做了独特的加密,只提供单词的 id,并不提供单词的字符串(很多预训练好的模型比如 word2vec, elmo 和 bert 都没法直接使用)。 

参赛选手可以直接使用标注数据集训练单任务模型,比如:bilstm+crf 模型,因为该数据集没有原始的单词字符串表示,所以没法使用 Pos-tagger 等信息辅助算法学习。另外,本比赛提供了一个大规模的未标注语料,参赛者也可以使用 word2vec [7] , Glove [8]  等工具训练词向量,将词向量作为单任务模型的词向量初始化。为了更好地利用这个未标注语料,参赛者也可以训练语言模型(ELMO, Bert 等),然后在语言模型上进行下游的 NER 任务 [1-3] 。 

参考文献:

[1] Huang, Zhiheng, Wei Xu, and Kai Yu. "Bidirectional LSTM-CRF models for sequence tagging." arXiv preprint arXiv:1508.01991 (2015). 

[2] Peters, Matthew E., et al. "Deep contextualized word representations." arXiv preprint arXiv:1802.05365 (2018). 

[3] Radford, A. & Salimans, T. Improving Language Understanding by Generative Pre-Training. (2018). 

[4] Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. (2018). 

[5] Clark, Kevin, et al. "Semi-supervised sequence modeling with cross-view training." arXiv preprint arXiv:1809.08370 (2018). 

[6] Akbik, Alan, Tanja Bergmann, and Roland Vollgraf. "Pooled contextualized embeddings for named entity recognition." Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2019. 

[7] Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems. 2013. 

[8] Pennington, Jeffrey, Richard Socher, and Christopher Manning. "Glove: Global vectors for word representation." Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014. 

命名实体识别比赛感想 崔德盛 

算法比赛虽然有着很多的细分领域,然而总体上来说都是从数据,特征,模型三个方面提升。在不同的比赛任务中,不同的队伍侧重点都有所不同。 

以刚刚结束的搜狐 2019 校园算法赛为例,苏大的队伍侧重于数据分析和模型结构的调整,重邮的队伍侧重于单模型的训练技巧,北邮的队伍侧重于特征工程和模型融合方案等。其实这些方案虽然在榜上的分数有细微的差异,但是本身并没有高下之分。 

我认为,算法比赛中最重要的就是从数据出发,找到自己对于问题或数据的独到理解,通常也是算法效果的提升点,并在解决方案中得到体现。 

就本次的比赛来说,相较于搜狐比赛,最大的难点在于所有的字符 ID 化使得类似 BERT 等的预训练模型很难发挥作用,文本的 embed 表示需要根据提供的无标注数据进行重新构建。

此外,数据分析的难度也会更大。在比赛初期可以从简单的序列标注模型出发,例如 BI_LSTM+CRF,逐步优化网络结构,例如一些节点的超参数和网络层(Attention,Transformer 等)的尝试、embed 的构建方式和模型的训练策略,最终达到较好的模型结果。其中 embed 的构建方式,最简单的方法就是 word2vec,也可以尝试较为复杂的 ELMo,GPT 和 Bert 等(可根据实验环境对模型做删减)。 

论文参考:

- Bidirectional LSTM-CRF Models for Sequence Tagging 

[ https://arxiv.org/pdf/1508.01991.pdf ] 

- Deep contextualized word representations 

[ https://arxiv.org/pdf/1802.05365.pdf ] 

- Attention is all you need 

[ https://arxiv.org/pdf/1706.03762.pdf ] 

- Pre-training of Deep Bidirectional Transformers for Language Understanding 

[ https://arxiv.org/pdf/1810.04805.pdf ] 

看完以上攻略,大家是不是跃跃欲试了呢?达观数据在过去的几届比赛中,已经积攒了上万名 NLP 领域的优秀选手和长胜将军,其中很多人已经加入了达观数据成为企业的重要力量,或是借助竞赛的经历在科研生涯中获得了高起点。 快扫描下方的二维码或点击“原文链接”参加比赛吧!

:mag:

现在,在 「知乎」 也能找到我们了

进入知乎首页搜索 「PaperWeekly」

点击 「关注」 订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击 「交流群」 ,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 |  阅读原文   | 报名参赛

分享到: