中文空间语义理解评测

Overview

中文空间语义理解评测


最新消息


一、任务简介

语言交际中存在大量的空间语义信息,理解这些信息是非常重要的。著名认知语言学家Jackendoff在其概念语义学理论中也指出空间结构是语言系统的四种基本结构之一(其余三个层面:语音、句法、概念语义)1

通常认为,对文本中空间信息的理解,不仅需要掌握句段中字词的语义,还需要具备一定的常识或世界知识,甚至是超出语言范畴的空间想象等认知能力。考察机器的空间认知能力是一项系统性的工作。作为初步尝试,北京大学与复旦大学的研究团队针对中文文本中空间语义的正误判断与归因,提出了本次评测任务。

如果机器具备了空间认知能力,那么它不仅要能够识别常规、正确的空间信息,还应该能够识别异常、错误的空间信息。如对于“在四面签一个名字”,人类能够意识到其中存在异常,因为“一个名字”通常不会签在“四面”;又如对于“走过火车下”,人类能够清楚地知道通常不会有人在火车的“下”方走路。可以看出,这些异常是多种多样的,具体包括:跟空间语义理解有关的词语搭配问题、上下文信息冲突问题、与常识冲突的问题等。为了方便进行不同的后续处理,机器在识别异常的同时,也需要能够对异常的原因加以解释。

基于上述观点,本次评测试图考察计算机的以下能力:(1)计算机能否正确区分正常与错误的空间语义表达;(2)计算机能否解释空间语义表达错误的原因;(3)计算机处理上述两个任务的综合能力。对应为如下三个任务:

子任务1,中文空间语义正误判断:要求参赛系统对给定的中文文本中是否存在空间关系异常加以判断。

子任务2,中文空间语义异常归因合理性判断:要求参赛系统判断给定的归因是否可以用来解释给定的中文文本中所存在的空间关系异常。这些异常被分为词语搭配问题、语义问题、语境问题、常识问题以及其他问题(详情请看后文介绍)。

子任务3,中文空间语义判断与归因联合任务:参赛系统首先需要判断给定的中文文本中是否存在空间关系异常,如果存在异常,则再判断所给定的归因是否可以用来解释这一异常。


二、数据介绍

数据以json格式发布(参见后附数据样例),各个字段说明如表1所示。

表1 数据字段说明

字段 类型 说明
qID int 试题编号。
context string 文本材料。
reason string 子任务2及子任务3中,对文本材料中空间关系异常的归因。
judge1 bool 子任务1中,对文本是否存在空间异常的判断。true表示句子成立,无异常;false表示句子不成立,有异常。
judge2 bool 子任务2及子任务3中,对归因是否能够解释材料的空间关系异常的判断。true表示归因成立;false表示归因不成立。

评测任务中的语料主要来源于CCL语料库,涵盖小说、散文、词典等文体。需注意实际使用的文本材料是在原始语料的基础上,替换了具有空间方位意义的词语之后,再进行人工标注和检验后得到的。最终得到7782段有效文本材料,合计86万字。各段材料字数的平均值为110.52,标准差为53.00。这些材料根据性质和任务需要被划分至评测的三个任务的不同数据集中,具体分布情况如表2所示2

表2 各子任务的数据集分布情况

子任务 训练集 验证集 测试集 总计 备注
1、中文空间语义正误判断 4,237 806 800~ 5.8k~ 三个数据集之间,所使用的原始语料没有交集,下同。
2、中文空间语义异常归因合理性判断 5,989 2,088 2k~ 10k+ (1)任一数据集所使用的context与子任务1的验证集和测试集无交集。(2)训练集使用的context与子任务1的训练集有交集。
3、中文空间语义判断与归因联合任务 0 1,203 1k+ 2k+ (1)不提供训练集。(2)验证集和测试集中使用的context与子任务1的相应数据集相同。

在子任务2及子任务3中,使用了多种归因类型。类型之间并不完全独立,每段材料可能对应多种归因类型。参赛系统不需要在归因类型之中做选择,而只需要判断所提供的类型是否适合用来解释材料中的错误。各类型的简介如表3所示。每种类型的具体数据样例请看 样例

表3 归因类型说明

类型 内部编号 描述 形式
搭配问题 A text1text2不能搭配,主要是因为语法、韵律、习惯等因素,通常不会这样说,而不是因为它们语义不兼容。 text1”和“text2”不宜搭配
语义问题 B text1text2通常不一起使用,主要是因为它们语义通常不兼容,而不是因为语法、韵律、习惯等因素。 text1”和“text2”语义冲突
语境问题 C text1text2之间存在冲突,主要是因为在当前语境中,具体信息存在冲突,而不是因为二者语义不兼容。 text1”与上下文“text2”存在信息冲突
常识问题 D text1所描述的内容不符合常识,这个常识由commonsense描述。 text1”与常识不符[:commonsense]

三、评价标准

对于子任务一子任务二,使用准确率(Acc,Accuracy)作为评价指标。

Acc = 命中正确答案的题数 / 题目总数

对于子任务3,使用F1值作为评价指标。公式如下,其中 PR 分别代表准确率(Precision)和召回率(Recall):

F1 = 2*P*R / (P+R)

PR 的计算公式如下,其中 TPTNFPFN 分别代表命中数量、正确拒绝数量、误报数量、漏报数量,下标表示judge所属的步骤。

P = (TP_2 + TN_2) / (TN_1 + FN_1)
R = (TP_2 + TN_2) / (TN_1 + FP_1)

注意上面公式中 TP_2TN_2 只计算judge1判断为false 的情况。

评分的计算脚本可参考: evaluate.py (注:此脚本仅供参考,发现任何问题请联系我们)。

最终排名:在所有参赛队伍的评测结果产生之后,计算每个任务下各个队伍的标准分数(Z-score),对三个任务的标准分数取平均,作为最终排名的依据。标准分数计算公式如下,其中 为平均数, s 为标准差:

Z = (X - X̄) / s
基线系统

我们提供一个基线系统供参赛队伍参考: SpaCE2021-Baseline


四、比赛日程

日期 事项
2021年4月1日 开放报名,发布训练集以及无答案的验证集
2021年4月5日 开放结果提交
2021年6月1日 发布验证集答案
2021年7月1日 发布无答案的测试集,开始提交最终模型及技术报告
2021年7月5日 最终模型提交截止
2021年7月15日 技术报告提交截止
2021年7月23日 公布结果,比赛结束
2021年8月13日-15日 CCL 2021评测研讨会

五、报名方式

请填写在线报名表: 点击此链接填写报名表

请注意:

  1. 报名时间:2021年4月1日至2021年6月1日;
  2. 一个团队只需由负责人或联系人填写一次报名表单即可;
  3. 报名即表示已经阅读并承诺遵守参赛协议( Agreement.md );
  4. 如有其他问题,请直接联系评测委员会:[email protected] (孙春晖);
  5. 主办方会在每个工作日检查新的报名队伍并通过邮件发送回执。

六、奖项设置

评测奖金由华为公司赞助,奖池共计40000元:

一等奖(1名),奖金15000元;

二等奖(2名),各奖8000元;

三等奖(3名),各奖3000元。

七、委员会

单位:北京大学,复旦大学

主席:詹卫东,穗志方(北京大学);邱锡鹏(复旦大学)

委员:孙春晖,唐乾桐,秦梓巍,董青秀,李卓,张洁(北京大学);李孝男(复旦大学)等

联系人:孙春晖  联系方式:[email protected]


脚注

1 参看 Jackendoff(2002)著作《Foundations of language: Brain, meaning, grammar, evolution》第1.2、1.5节。

2 每段材料配合不同归因将会形成不同题目,因此题目数量大于材料数量。

A Python package implementing a new model for text classification with visualization tools for Explainable AI :octocat:

A Python package implementing a new model for text classification with visualization tools for Explainable AI 🍣 Online live demos: http://tworld.io/s

Sergio Burdisso 285 Jan 02, 2023
A python package to fine-tune transformer-based models for named entity recognition (NER).

nerblackbox A python package to fine-tune transformer-based language models for named entity recognition (NER). Resources Source Code: https://github.

Felix Stollenwerk 13 Jul 30, 2022
Simple Text-To-Speech Bot For Discord

Simple Text-To-Speech Bot For Discord This is a very simple TTS bot for discord made with python. For this bot you need FFMPEG, see installation to se

1 Sep 26, 2022
An evaluation toolkit for voice conversion models.

Voice-conversion-evaluation An evaluation toolkit for voice conversion models. Sample test pair Generate the metadata for evaluating models. The direc

30 Aug 29, 2022
Dense Passage Retriever - is a set of tools and models for open domain Q&A task.

Dense Passage Retrieval Dense Passage Retrieval (DPR) - is a set of tools and models for state-of-the-art open-domain Q&A research. It is based on the

Meta Research 1.1k Jan 07, 2023
Pipelines de datos, 2021.

Este repo ilustra un proceso sencillo de automatización de transformación y modelado de datos, a través de un pipeline utilizando Luigi. Stack princip

Rodolfo Ferro 8 May 19, 2022
OpenAI CLIP text encoders for multiple languages!

Multilingual-CLIP OpenAI CLIP text encoders for any language Colab Notebook · Pre-trained Models · Report Bug Overview OpenAI recently released the pa

Fredrik Carlsson 481 Dec 30, 2022
Collection of useful (to me) python scripts for interacting with napari

Napari scripts A collection of napari related tools in various state of disrepair/functionality. Browse_LIF_widget.py This module can be imported, for

5 Aug 15, 2022
초성 해석기 based on ko-BART

초성 해석기 개요 한국어 초성만으로 이루어진 문장을 입력하면, 완성된 문장을 예측하는 초성 해석기입니다. 초성: ㄴㄴ ㄴㄹ ㅈㅇㅎ 예측 문장: 나는 너를 좋아해 모델 모델은 SKT-AI에서 공개한 Ko-BART를 이용합니다. 데이터 문장 단위로 이루어진 아무 코퍼스나

Dawoon Jung 29 Oct 28, 2022
基于Transformer的单模型、多尺度的VAE模型

UniVAE 基于Transformer的单模型、多尺度的VAE模型 介绍 https://kexue.fm/archives/8475 依赖 需要大于0.10.6版本的bert4keras(当前还没有推到pypi上,可以直接从GitHub上clone最新版)。 引用 @misc{univae,

苏剑林(Jianlin Su) 49 Aug 24, 2022
A desktop GUI providing an audio interface for GPT3.

Jabberwocky neil_degrasse_tyson_with_audio.mp4 Project Description This GUI provides an audio interface to GPT-3. My main goal was to provide a conven

16 Nov 27, 2022
This is a GUI program that will generate a word search puzzle image

Word Search Puzzle Generator Table of Contents About The Project Built With Getting Started Prerequisites Installation Usage Roadmap Contributing Cont

11 Feb 22, 2022
End-to-end MLOps pipeline of a BERT model for emotion classification.

image source EmoBERT-MLOps The goal of this repository is to build an end-to-end MLOps pipeline based on the MLOps course from Made with ML, but this

Dimitre Oliveira 4 Nov 06, 2022
Simple, Fast, Powerful and Easily extensible python package for extracting patterns from text, with over than 60 predefined Regular Expressions.

patterns-finder Simple, Fast, Powerful and Easily extensible python package for extracting patterns from text, with over than 60 predefined Regular Ex

22 Dec 19, 2022
Unsupervised intent recognition

INTENT author: steeve LAQUITAINE description: deployment pattern: currently batch only Setup & run git clone https://github.com/slq0/intent.git bash

sl 1 Apr 08, 2022
Universal Adversarial Triggers for Attacking and Analyzing NLP (EMNLP 2019)

Universal Adversarial Triggers for Attacking and Analyzing NLP This is the official code for the EMNLP 2019 paper, Universal Adversarial Triggers for

Eric Wallace 248 Dec 17, 2022
Unsupervised Language Modeling at scale for robust sentiment classification

** DEPRECATED ** This repo has been deprecated. Please visit Megatron-LM for our up to date Large-scale unsupervised pretraining and finetuning code.

NVIDIA Corporation 1k Nov 17, 2022
Sapiens is a human antibody language model based on BERT.

Sapiens: Human antibody language model ____ _ / ___| __ _ _ __ (_) ___ _ __ ___ \___ \ / _` | '_ \| |/ _ \ '

Merck Sharp & Dohme Corp. a subsidiary of Merck & Co., Inc. 13 Nov 20, 2022
The official code for “DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction”, ACM MM, Oral Paper, 2021.

Good news! Our new work exhibits state-of-the-art performances on DocUNet benchmark dataset: DocScanner: Robust Document Image Rectification with Prog

Hao Feng 231 Dec 26, 2022
YACLC - Yet Another Chinese Learner Corpus

汉语学习者文本多维标注数据集YACLC V1.0 中文 | English 汉语学习者文本多维标注数据集(Yet Another Chinese Learner

BLCU-ICALL 47 Dec 15, 2022