基于pytorch+bert的中文事件抽取

Overview

pytorch_bert_event_extraction

基于pytorch+bert的中文事件抽取,主要思想是QA(问答)。
要预先下载好chinese-roberta-wwm-ext模型,并在运行时指定模型的位置。
已经训练好的模型:放在checkpoints下
链接:https://pan.baidu.com/s/1b5cqkjRH4uejO5h_587oGw
提取码:funk

流程

1、data下面有precoss.py和processor.py,主要是先对数据进行预处理,得到事件类型,事件里面的具体属性,并存储相关文件到final_data下;
2、preprocess.py,处理数据为QA格式,例如:
‘[CLS]找出和组织关系-裁员相关的属性[SEP]消失的“外企光环”,5月份在华裁员900余人,香饽饽变“臭”了[SEP]’,具体可以去看logs下的preprocess.log。最后将数据保存为pickle备用
3、dataset.py,处理数据为Pytorch所需的格式;
4、main.py,运行的主函数,可以训练、验证、测试和预测;

依赖

pytorch=1.6.0
transformers
seqeval

运行代码

python main.py \
--bert_dir="../../model_hub/hfl_chinese-roberta-wwm-ext/" \
--data_dir="./data/" \
--log_dir="./logs/" \
--output_dir="./checkpoints/" \
--num_tags=218 \
--seed=123 \
--gpu_ids="0" \
--max_seq_len=320 \
--lr=2e-5 \
--other_lr=2e-4 \
--train_batch_size=32 \
--train_epochs=10 \
--eval_batch_size=32

结果

训练和验证

......
2021-08-31 16:38:23,869 - INFO - main.py - train - 85 - [train] epoch:9/10 step:4347/4350 loss:0.066313
2021-08-31 16:38:24,477 - INFO - main.py - train - 85 - [train] epoch:9/10 step:4348/4350 loss:0.103122
2021-08-31 16:38:24,995 - INFO - main.py - train - 85 - [train] epoch:9/10 step:4349/4350 loss:0.074958
2021-08-31 16:38:38,645 - INFO - main.py - train - 90 - [dev] loss:0.100371 accuracy:0.9099 precision:0.7113 recall:0.6757 f1:0.6931
2021-08-31 16:38:38,645 - INFO - trainUtils.py - save_model - 61 - Saving model checkpoint to ./checkpoints/bertMrc-4350

测试

load_model_and_parallel - 87 - Load ckpt from ./checkpoints/bertMrc-4350/model.pt
2021-08-31 16:43:51,259 - INFO - trainUtils.py - load_model_and_parallel - 97 - Use single gpu in: ['0']
2021-08-31 16:44:06,747 - INFO - main.py - test - 199 - [test] accuracy:0.9098661028893587 precision:0.7113103847266415 recall:0.6757350920582578 f1:0.6930665163472379
2021-08-31 16:44:06,747 - INFO - main.py - test - 200 -                   precision    recall  f1-score   support

      交往_会见_会见主体       0.86      0.86      0.86        14
      交往_会见_会见对象       0.69      0.75      0.72        12
        交往_会见_地点       1.00      0.75      0.86         4
        交往_会见_时间       0.71      0.83      0.77         6
        交往_感谢_时间       0.00      0.00      0.00         6
       交往_感谢_致谢人       0.67      0.25      0.36         8
      交往_感谢_被感谢人       0.14      0.20      0.17         5
      交往_探班_探班主体       0.89      0.73      0.80        11
      交往_探班_探班对象       1.00      0.44      0.62         9
        交往_探班_时间       0.00      0.00      0.00         1
        交往_点赞_时间       0.00      0.00      0.00         1
      交往_点赞_点赞对象       0.60      0.60      0.60        10
       交往_点赞_点赞方       0.88      1.00      0.93         7
        交往_道歉_时间       0.00      0.00      0.00         6
      交往_道歉_道歉对象       0.00      0.00      0.00         4
       交往_道歉_道歉者       0.46      0.61      0.52        18
    产品行为_上映_上映影视       0.80      0.78      0.79        36
     产品行为_上映_上映方       0.00      0.00      0.00         1
      产品行为_上映_时间       0.67      0.89      0.76        18
    产品行为_下架_下架产品       0.48      0.53      0.50        19
     产品行为_下架_下架方       0.58      0.70      0.64        10
      产品行为_下架_时间       0.50      0.50      0.50         2
    产品行为_下架_被下架方       0.00      0.00      0.00         4
    产品行为_发布_发布产品       0.67      0.71      0.69       175
     产品行为_发布_发布方       0.81      0.78      0.80        83
      产品行为_发布_时间       0.72      0.97      0.83        65
    产品行为_召回_召回内容       0.68      0.62      0.65        34
     产品行为_召回_召回方       0.86      0.86      0.86        29
      产品行为_召回_时间       0.71      0.50      0.59        10
      产品行为_获奖_奖项       0.85      0.79      0.81        14
      产品行为_获奖_时间       0.67      0.50      0.57         4
     产品行为_获奖_获奖人       0.62      0.67      0.64        12
     人生_产子/_产子者       0.82      0.93      0.87        15
     人生_产子/_出生者       0.00      0.00      0.00         5
      人生_产子/_时间       0.50      0.33      0.40         3
      人生_出轨_出轨对象       0.00      0.00      0.00         1
       人生_出轨_出轨方       0.75      0.75      0.75         4
      人生_分手_分手双方       0.93      0.77      0.84        35
        人生_失联_地点       0.62      0.62      0.62         8
       人生_失联_失联者       0.75      0.33      0.46         9
        人生_失联_时间       1.00      0.50      0.67         4
      人生_婚礼_参礼人员       0.00      0.00      0.00         1
        人生_婚礼_地点       0.00      0.00      0.00         2
        人生_婚礼_时间       1.00      0.50      0.67         2
      人生_婚礼_结婚双方       0.25      0.50      0.33         6
       人生_庆生_庆祝方       0.25      0.08      0.12        13
        人生_庆生_时间       1.00      1.00      1.00         6
       人生_庆生_生日方       0.78      0.82      0.80        17
     人生_庆生_生日方年龄       0.86      1.00      0.92         6
       人生_怀孕_怀孕者       0.67      0.50      0.57         8
        人生_怀孕_时间       0.00      0.00      0.00         2
        人生_死亡_地点       0.60      0.65      0.62        37
        人生_死亡_时间       0.70      0.78      0.74        36
        人生_死亡_死者       0.70      0.63      0.66        76
      人生_死亡_死者年龄       0.88      0.81      0.84        26
        人生_求婚_时间       0.00      0.00      0.00         2
      人生_求婚_求婚对象       0.75      0.90      0.82        10
       人生_求婚_求婚者       1.00      0.62      0.77         8
        人生_离婚_时间       0.57      0.67      0.62         6
      人生_离婚_离婚双方       0.70      0.79      0.74        66
        人生_结婚_时间       0.80      0.67      0.73        12
      人生_结婚_结婚双方       0.73      0.77      0.75        73
        人生_订婚_时间       0.00      0.00      0.00         1
      人生_订婚_订婚主体       0.25      0.36      0.30        11
   司法行为_举报_举报发起方       1.00      0.88      0.93         8
    司法行为_举报_举报对象       0.75      0.55      0.63        11
      司法行为_举报_时间       0.00      0.00      0.00         4
     司法行为_入狱_入狱者       0.90      0.90      0.90        21
      司法行为_入狱_刑期       0.48      0.69      0.56        16
      司法行为_入狱_时间       0.00      0.00      0.00         3
    司法行为_开庭_开庭案件       0.85      0.79      0.81        14
    司法行为_开庭_开庭法院       1.00      1.00      1.00         8
      司法行为_开庭_时间       0.78      0.88      0.82         8
     司法行为_拘捕_拘捕者       0.79      0.89      0.84        47
      司法行为_拘捕_时间       0.58      0.83      0.68        23
    司法行为_拘捕_被拘捕者       0.71      0.76      0.73        86
      司法行为_立案_时间       0.67      1.00      0.80         2
    司法行为_立案_立案对象       0.38      0.33      0.35         9
    司法行为_立案_立案机构       0.88      0.88      0.88         8
      司法行为_约谈_时间       0.80      0.86      0.83        14
   司法行为_约谈_约谈发起方       0.83      0.96      0.89        26
    司法行为_约谈_约谈对象       0.87      0.84      0.86        32
    司法行为_罚款_执法机构       0.64      0.94      0.76        17
      司法行为_罚款_时间       0.89      0.62      0.73        13
    司法行为_罚款_罚款对象       0.64      0.68      0.66        31
    司法行为_罚款_罚款金额       0.76      0.97      0.85        29
      司法行为_起诉_原告       0.93      0.65      0.76        20
      司法行为_起诉_时间       0.67      0.33      0.44         6
      司法行为_起诉_被告       0.71      0.71      0.71        24
   灾害/意外_地震_受伤人数       0.00      0.00      0.00         3
     灾害/意外_地震_时间       0.78      0.93      0.85        15
   灾害/意外_地震_死亡人数       0.00      0.00      0.00         4
     灾害/意外_地震_震中       0.00      0.00      0.00         5
   灾害/意外_地震_震源深度       0.00      0.00      0.00         6
     灾害/意外_地震_震级       0.89      0.89      0.89        19
 灾害/意外_/垮塌_受伤人数       0.00      0.00      0.00         2
 灾害/意外_/垮塌_坍塌主体       0.64      0.64      0.64        11
   灾害/意外_/垮塌_时间       0.75      0.75      0.75         4
 灾害/意外_/垮塌_死亡人数       0.00      0.00      0.00         7
     灾害/意外_坠机_地点       1.00      0.78      0.88         9
     灾害/意外_坠机_时间       1.00      0.75      0.86         8
   灾害/意外_坠机_死亡人数       1.00      0.25      0.40         4
     灾害/意外_洪灾_地点       1.00      0.50      0.67         4
     灾害/意外_洪灾_时间       0.00      0.00      0.00         3
   灾害/意外_洪灾_死亡人数       0.00      0.00      0.00         1
   灾害/意外_爆炸_受伤人数       0.00      0.00      0.00         7
     灾害/意外_爆炸_地点       0.78      0.88      0.82         8
     灾害/意外_爆炸_时间       1.00      1.00      1.00         3
   灾害/意外_爆炸_死亡人数       0.00      0.00      0.00         2
   灾害/意外_袭击_受伤人数       0.00      0.00      0.00         2
     灾害/意外_袭击_地点       0.60      0.30      0.40        10
     灾害/意外_袭击_时间       0.71      0.71      0.71         7
   灾害/意外_袭击_死亡人数       0.50      0.67      0.57         3
   灾害/意外_袭击_袭击对象       0.00      0.00      0.00         5
    灾害/意外_袭击_袭击者       0.80      0.44      0.57         9
   灾害/意外_起火_受伤人数       0.00      0.00      0.00         2
     灾害/意外_起火_地点       0.65      0.80      0.71        25
     灾害/意外_起火_时间       0.73      0.79      0.76        14
   灾害/意外_起火_死亡人数       0.00      0.00      0.00         3
   灾害/意外_车祸_受伤人数       0.00      0.00      0.00         7
     灾害/意外_车祸_地点       0.80      0.91      0.85        22
     灾害/意外_车祸_时间       0.67      0.76      0.71        21
   灾害/意外_车祸_死亡人数       0.00      0.00      0.00         6
      竞赛行为_夺冠_冠军       0.79      0.71      0.75        65
    竞赛行为_夺冠_夺冠赛事       0.65      0.60      0.62        47
      竞赛行为_夺冠_时间       0.94      0.73      0.82        22
      竞赛行为_晋级_时间       0.38      0.43      0.40         7
     竞赛行为_晋级_晋级方       0.61      0.64      0.62        36
    竞赛行为_晋级_晋级赛事       0.50      0.50      0.50        20
      竞赛行为_禁赛_时间       0.00      0.00      0.00         4
    竞赛行为_禁赛_禁赛时长       0.82      0.90      0.86        10
    竞赛行为_禁赛_禁赛机构       0.86      0.75      0.80         8
   竞赛行为_禁赛_被禁赛人员       0.61      0.65      0.63        17
      竞赛行为_胜负_时间       0.63      0.70      0.66        89
      竞赛行为_胜负_胜者       0.75      0.66      0.70       244
      竞赛行为_胜负_败者       0.72      0.68      0.70       232
    竞赛行为_胜负_赛事名称       0.57      0.59      0.58       158
     竞赛行为_退役_退役者       0.88      0.94      0.91        16
      竞赛行为_退赛_时间       0.00      0.00      0.00         1
     竞赛行为_退赛_退赛方       0.89      0.94      0.92        18
    竞赛行为_退赛_退赛赛事       0.56      0.62      0.59         8
    组织关系_停职_停职人员       0.50      0.56      0.53         9
    组织关系_停职_所属组织       0.00      0.00      0.00         3
      组织关系_停职_时间       0.00      0.00      0.00         2
     组织关系_加盟_加盟者       0.62      0.72      0.67        54
   组织关系_加盟_所加盟组织       0.89      0.67      0.76        51
      组织关系_加盟_时间       0.90      0.82      0.86        11
      组织关系_裁员_时间       0.00      0.00      0.00         5
    组织关系_裁员_裁员人数       0.62      0.56      0.59         9
     组织关系_裁员_裁员方       0.76      0.89      0.82        18
      组织关系_解散_时间       0.00      0.00      0.00         3
     组织关系_解散_解散方       0.64      0.70      0.67        10
    组织关系_解约_被解约方       0.20      0.33      0.25         3
     组织关系_解约_解约方       1.00      0.20      0.33         5
      组织关系_解雇_时间       0.00      0.00      0.00         2
   组织关系_解雇_被解雇人员       0.83      0.83      0.83        12
     组织关系_解雇_解雇方       0.57      0.44      0.50         9
 组织关系_/离职_原所属组织       0.73      0.69      0.71        59
    组织关系_/离职_时间       0.63      0.55      0.59        22
   组织关系_/离职_离职者       0.71      0.64      0.67        50
   组织关系_退出_原所属组织       0.90      0.90      0.90        20
      组织关系_退出_时间       0.33      1.00      0.50         1
     组织关系_退出_退出方       0.82      0.86      0.84        21
      组织行为_开幕_地点       0.88      0.91      0.89        23
      组织行为_开幕_时间       0.88      1.00      0.93        21
    组织行为_开幕_活动名称       0.64      0.72      0.68        32
      组织行为_游行_地点       0.86      0.75      0.80         8
      组织行为_游行_时间       0.00      0.00      0.00         4
    组织行为_游行_游行人数       0.00      0.00      0.00         5
    组织行为_游行_游行组织       0.00      0.00      0.00         2
    组织行为_罢工_所属组织       0.60      0.43      0.50         7
      组织行为_罢工_时间       0.00      0.00      0.00         2
    组织行为_罢工_罢工人员       0.00      0.00      0.00         2
    组织行为_罢工_罢工人数       0.00      0.00      0.00         1
      组织行为_闭幕_地点       0.00      0.00      0.00         1
      组织行为_闭幕_时间       1.00      0.50      0.67         4
    组织行为_闭幕_活动名称       0.50      0.86      0.63         7
   财经/交易_上市_上市企业       0.38      0.38      0.38         8
     财经/交易_上市_地点       0.00      0.00      0.00         6
     财经/交易_上市_时间       1.00      1.00      1.00         3
 财经/交易_出售/收购_交易物       0.57      0.63      0.60        19
财经/交易_出售/收购_出售价格       1.00      0.83      0.91        12
 财经/交易_出售/收购_出售方       0.00      0.00      0.00        13
 财经/交易_出售/收购_收购方       0.57      0.80      0.67        15
  财经/交易_出售/收购_时间       0.67      1.00      0.80         4
   财经/交易_加息_加息幅度       0.00      0.00      0.00         1
   财经/交易_加息_加息机构       1.00      1.00      1.00         3
     财经/交易_涨价_时间       0.00      0.00      0.00         1
    财经/交易_涨价_涨价物       1.00      0.40      0.57         5
     财经/交易_涨停_时间       0.57      0.50      0.53         8
   财经/交易_涨停_涨停股票       0.73      0.66      0.69        29
     财经/交易_融资_时间       0.60      0.60      0.60         5
    财经/交易_融资_融资方       0.71      0.75      0.73        16
   财经/交易_融资_融资轮次       0.71      0.71      0.71        14
   财经/交易_融资_融资金额       0.92      0.92      0.92        13
    财经/交易_融资_跟投方       0.00      0.00      0.00         9
    财经/交易_融资_领投方       0.00      0.00      0.00        11
     财经/交易_跌停_时间       0.75      0.60      0.67        10
   财经/交易_跌停_跌停股票       0.87      1.00      0.93        13
     财经/交易_降价_时间       0.00      0.00      0.00         2
   财经/交易_降价_降价幅度       0.00      0.00      0.00         6
    财经/交易_降价_降价方       0.00      0.00      0.00         3
    财经/交易_降价_降价物       0.43      0.30      0.35        10
     财经/交易_降息_时间       0.00      0.00      0.00         3
   财经/交易_降息_降息幅度       0.00      0.00      0.00         3
   财经/交易_降息_降息机构       0.50      0.50      0.50         4

       micro avg       0.71      0.68      0.69      3639
       macro avg       0.53      0.50      0.50      3639
    weighted avg       0.68      0.68      0.67      3639

预测

2021-08-31 16:44:07,038 - INFO - trainUtils.py - load_model_and_parallel - 97 - Use single gpu in: ['0']
2021-08-31 16:44:07,043 - INFO - main.py - <module> - 307 - ====================================
2021-08-31 16:44:07,044 - INFO - main.py - <module> - 308 - 文本:北京时间19日凌晨,美国联邦储备委员会宣布,将联邦基金利率目标区间下调25个基点到1.75%2%的水平。美联储年内的第二次降息,影响全球金融市场,中国货币政策将走势如何?
2021-08-31 16:44:07,044 - INFO - main.py - <module> - 309 - 预测值:
2021-08-31 16:44:07,081 - INFO - main.py - predict - 237 - [('财经/交易_降息_降息机构', '美联储', 53, 55)]
2021-08-31 16:44:07,082 - INFO - main.py - <module> - 307 - ====================================
2021-08-31 16:44:07,082 - INFO - main.py - <module> - 308 - 文本:82日,2019ChinaJoy正式开幕,科大讯飞旗下A.I.家族产品组团亮相,包括讯飞翻译机3.0、讯飞听见M1、讯飞输入法,在ChinaJoy现场带来了出色的互动体验。
2021-08-31 16:44:07,082 - INFO - main.py - <module> - 309 - 预测值:
2021-08-31 16:44:07,115 - INFO - main.py - predict - 237 - [('组织行为_开幕_时间', '8月2日', 0, 3), ('组织行为_开幕_活动名称', '2019ChinaJoy', 5, 16)]
2021-08-31 16:44:07,115 - INFO - main.py - <module> - 307 - ====================================
2021-08-31 16:44:07,115 - INFO - main.py - <module> - 308 - 文本:82日,2019ChinaJoy正式开幕,科大讯飞旗下A.I.家族产品组团亮相,包括讯飞翻译机3.0、讯飞听见M1、讯飞输入法,在ChinaJoy现场带来了出色的互动体验。
2021-08-31 16:44:07,116 - INFO - main.py - <module> - 309 - 预测值:
2021-08-31 16:44:07,148 - INFO - main.py - predict - 237 - [('产品行为_发布_时间', '8月2日', 0, 3), ('产品行为_发布_发布产品', '科大讯飞旗下A.I.家族产品组团亮相,包括', 22, 42), ('产品行为_发布_发布产品', '讯飞翻译机3.0', 43, 50), ('产品行为_发布_发布产品', '讯飞听见M1', 52, 57), ('产品行为_发布_发布产品', '讯飞输入法', 59, 63)]
2021-08-31 16:44:07,149 - INFO - main.py - <module> - 307 - ====================================
2021-08-31 16:44:07,149 - INFO - main.py - <module> - 308 - 文本:技嘉连发三款X299X主板:迎接十代发烧酷睿X
2021-08-31 16:44:07,149 - INFO - main.py - <module> - 309 - 预测值:
2021-08-31 16:44:07,182 - INFO - main.py - predict - 237 - [('产品行为_发布_发布方', '技嘉', 0, 1), ('产品行为_发布_发布产品', '三款X299X主板', 4, 12)]
2021-08-31 16:44:07,183 - INFO - main.py - <module> - 307 - ====================================
2021-08-31 16:44:07,183 - INFO - main.py - <module> - 308 - 文本:#体坛日日谈#今日,西乙拉斯帕尔马斯队官方宣布,北京国安外援比埃拉租借加盟球队,租期至2019年12月31日,并将在之后回归国安。随后国安俱乐部也发布比埃拉租借离队的官方公告。
2021-08-31 16:44:07,183 - INFO - main.py - <module> - 309 - 预测值:
2021-08-31 16:44:07,216 - INFO - main.py - predict - 237 - [('组织关系_加盟_时间', '今日', 7, 8), ('组织关系_加盟_所加盟组织', '西乙拉斯帕尔马斯队', 10, 18), ('组织关系_加盟_加盟者', '北京国安外援比埃拉', 24, 32)]
2021-08-31 16:44:07,217 - INFO - main.py - <module> - 307 - ====================================
2021-08-31 16:44:07,217 - INFO - main.py - <module> - 308 - 文本:515日上午,中国国家主席习近平在亚洲文明对话大会开幕式上发表主旨演讲。
2021-08-31 16:44:07,217 - INFO - main.py - <module> - 309 - 预测值:
2021-08-31 16:44:07,250 - INFO - main.py - predict - 237 - [('组织行为_开幕_时间', '5月15日上午', 0, 6), ('组织行为_开幕_活动名称', '亚洲文明对话大会', 18, 25)]
2021-08-31 16:44:07,251 - INFO - main.py - <module> - 307 - ====================================
2021-08-31 16:44:07,251 - INFO - main.py - <module> - 308 - 文本:华为海外新机海报,宣布华为将于1017日发布一款全新的手机产品,而且从海报上的手机剪影来看,可能会采用全新的屏幕设计。
2021-08-31 16:44:07,251 - INFO - main.py - <module> - 309 - 预测值:
2021-08-31 16:44:07,283 - INFO - main.py - predict - 237 - [('产品行为_发布_发布方', '华为', 11, 12), ('产品行为_发布_时间', '10月17日', 15, 20), ('产品行为_发布_发布产品', '一款全新的手机产品', 23, 31)]
2021-08-31 16:44:07,284 - INFO - main.py - <module> - 307 - ====================================
2021-08-31 16:44:07,284 - INFO - main.py - <module> - 308 - 文本:为规范网络订餐经营行为,717日,涞源县局集中约谈“美团”“饿了么”“涞源外卖”3家网络订餐第三方平台负责人。
2021-08-31 16:44:07,284 - INFO - main.py - <module> - 309 - 预测值:
2021-08-31 16:44:07,318 - INFO - main.py - predict - 237 - [('司法行为_约谈_时间', '7月17日', 12, 16), ('司法行为_约谈_约谈发起方', '涞源县局', 18, 21), ('司法行为_约谈_约谈对象', '“美团”“饿了么”“涞源外卖”3家网络订餐第三方平台负责人', 26, 54)]
2021-08-31 16:44:07,319 - INFO - main.py - <module> - 307 - ====================================
2021-08-31 16:44:07,319 - INFO - main.py - <module> - 308 - 文本:《等着我》洛阳警察辞职找女儿二十多年,团圆时女儿已在农村结婚
2021-08-31 16:44:07,319 - INFO - main.py - <module> - 309 - 预测值:
2021-08-31 16:44:07,352 - INFO - main.py - predict - 237 - [('组织关系_辞/离职_离职者', '洛阳警察', 5, 8)]
2021-08-31 16:44:07,353 - INFO - main.py - <module> - 307 - ====================================
2021-08-31 16:44:07,353 - INFO - main.py - <module> - 308 - 文本:因为一部和梁朝伟合作的电影,让汤唯坐上了“过山车”,一时间名声大振,却因种种原因备受争议,乃至汤唯一度跑去国外躲避清净,随后汤唯结婚生子,沉寂几年后,汤唯靠着《地球最后的夜晚》再次回到荧幕之中,网友惊奇地发现,汤唯竟说着一口流利的英语回归了!
2021-08-31 16:44:07,353 - INFO - main.py - <module> - 309 - 预测值:
2021-08-31 16:44:07,386 - INFO - main.py - predict - 237 - [('人生_结婚_结婚双方', '汤唯', 62, 63)]
2021-08-31 16:44:07,387 - INFO - main.py - <module> - 307 - ====================================
2021-08-31 16:44:07,387 - INFO - main.py - <module> - 308 - 文本:因为一部和梁朝伟合作的电影,让汤唯坐上了“过山车”,一时间名声大振,却因种种原因备受争议,乃至汤唯一度跑去国外躲避清净,随后汤唯结婚生子,沉寂几年后,汤唯靠着《地球最后的夜晚》再次回到荧幕之中,网友惊奇地发现,汤唯竟说着一口流利的英语回归了!
2021-08-31 16:44:07,387 - INFO - main.py - <module> - 309 - 预测值:
2021-08-31 16:44:07,419 - INFO - main.py - predict - 237 - [('人生_产子/女_产子者', '汤唯', 62, 63)]
2021-08-31 16:44:07,420 - INFO - main.py - <module> - 307 - ====================================
2021-08-31 16:44:07,420 - INFO - main.py - <module> - 308 - 文本:20195101810分,永平县博南镇糖果厂后山突发森林火灾,火情发生后,永平县立即启动森林火灾扑救预案,县委、政府领导靠前指挥,组织扑火力量206人参与扑救。
2021-08-31 16:44:07,421 - INFO - main.py - <module> - 309 - 预测值:
2021-08-31 16:44:07,453 - INFO - main.py - predict - 237 - [('灾害/意外_起火_时间', '2019年5月10日18时10分', 0, 15), ('灾害/意外_起火_地点', '永平县博南镇糖果厂后山', 17, 27), ('灾害/意外_起火_地点', '森林', 30, 31)]
2021-08-31 16:44:07,454 - INFO - main.py - <module> - 307 - ====================================
2021-08-31 16:44:07,454 - INFO - main.py - <module> - 308 - 文本:20195101810分,永平县博南镇糖果厂后山突发森林火灾,火情发生后,永平县立即启动森林火灾扑救预案,县委、政府领导靠前指挥,组织扑火力量206人参与扑救。
2021-08-31 16:44:07,454 - INFO - main.py - <module> - 309 - 预测值:
2021-08-31 16:44:07,487 - INFO - main.py - predict - 237 - [('灾害/意外_起火_时间', '2019年5月10日18时10分', 0, 15), ('灾害/意外_起火_地点', '永平县博南镇糖果厂后山', 17, 27), ('灾害/意外_起火_地点', '森林', 30, 31)]

讲在最后

  • 还是有一定的效果的,但是有些类别的效果很差,可能是该类数据量太少;
  • 要预先知道文本是属于哪一个事件,这里可以先对文本进行多标签分类,然后得到分类结果,再构建QA进行推断;多标签分类可以去查看另一个仓库:pytorch_bert_multi_classification
Owner
西西嘛呦
西西嘛呦
使用pytorch+transformers复现了SimCSE论文中的有监督训练和无监督训练方法

SimCSE复现 项目描述 SimCSE是一种简单但是很巧妙的NLP对比学习方法,创新性地引入Dropout的方式,对样本添加噪声,从而达到对正样本增强的目的。 该框架的训练目的为:对于batch中的每个样本,拉近其与正样本之间的距离,拉远其与负样本之间的距离,使得模型能够在大规模无监督语料(也可以

58 Dec 20, 2022
Natural Language Processing for Adverse Drug Reaction (ADR) Detection

Natural Language Processing for Adverse Drug Reaction (ADR) Detection This repo contains code from a project to identify ADRs in discharge summaries a

Medicines Optimisation Service - Austin Health 21 Aug 05, 2022
中文无监督SimCSE Pytorch实现

A PyTorch implementation of unsupervised SimCSE SimCSE: Simple Contrastive Learning of Sentence Embeddings 1. 用法 无监督训练 python train_unsup.py ./data/ne

99 Dec 23, 2022
Open-Source Toolkit for End-to-End Speech Recognition leveraging PyTorch-Lightning and Hydra.

OpenSpeech provides reference implementations of various ASR modeling papers and three languages recipe to perform tasks on automatic speech recogniti

Soohwan Kim 26 Dec 14, 2022
SEJE is a prototype for the paper Learning Text-Image Joint Embedding for Efficient Cross-Modal Retrieval with Deep Feature Engineering.

SEJE is a prototype for the paper Learning Text-Image Joint Embedding for Efficient Cross-Modal Retrieval with Deep Feature Engineering. Contents Inst

0 Oct 21, 2021
Implementation for paper BLEU: a Method for Automatic Evaluation of Machine Translation

BLEU Score Implementation for paper: BLEU: a Method for Automatic Evaluation of Machine Translation Author: Ba Ngoc from ProtonX BLEU score is a popul

Ngoc Nguyen Ba 6 Oct 07, 2021
AMUSE - financial summarization

AMUSE AMUSE - financial summarization Unzip data.zip Train new model: python FinAnalyze.py --task train --start 0 --count how many files,-1 for all

1 Jan 11, 2022
Contains the code and data for our #ICSE2022 paper titled as "CodeFill: Multi-token Code Completion by Jointly Learning from Structure and Naming Sequences"

CodeFill This repository contains the code for our paper titled as "CodeFill: Multi-token Code Completion by Jointly Learning from Structure and Namin

Software Analytics Lab 11 Oct 31, 2022
"Investigating the Limitations of Transformers with Simple Arithmetic Tasks", 2021

transformers-arithmetic This repository contains the code to reproduce the experiments from the paper: Nogueira, Jiang, Lin "Investigating the Limitat

Castorini 33 Nov 16, 2022
Code and datasets for our paper "PTR: Prompt Tuning with Rules for Text Classification"

PTR Code and datasets for our paper "PTR: Prompt Tuning with Rules for Text Classification" If you use the code, please cite the following paper: @art

THUNLP 118 Dec 30, 2022
precise iris segmentation

PI-DECODER Introduction PI-DECODER, a decoder structure designed for Precise Iris Segmentation and Location. The decoder structure is shown below: Ple

8 Aug 08, 2022
Code for Editing Factual Knowledge in Language Models

KnowledgeEditor Code for Editing Factual Knowledge in Language Models (https://arxiv.org/abs/2104.08164). @inproceedings{decao2021editing, title={Ed

Nicola De Cao 86 Nov 28, 2022
Autoregressive Entity Retrieval

The GENRE (Generative ENtity REtrieval) system as presented in Autoregressive Entity Retrieval implemented in pytorch. @inproceedings{decao2020autoreg

Meta Research 611 Dec 16, 2022
Multilingual Emotion classification using BERT (fine-tuning). Published at the WASSA workshop (ACL2022).

XLM-EMO: Multilingual Emotion Prediction in Social Media Text Abstract Detecting emotion in text allows social and computational scientists to study h

MilaNLP 35 Sep 17, 2022
A script that automatically creates a branch name using google translation api and jira api

About google translation api와 jira api을 사용하여 자동으로 브랜치 이름을 만들어주는 스크립트 Setup 환경변수에 다음 3가지를 등록해야 한다. JIRA_USER : JIRA email (ex: hyunwook.kim 2 Dec 20, 2021

Search with BERT vectors in Solr and Elasticsearch

Search with BERT vectors in Solr and Elasticsearch

Dmitry Kan 123 Dec 29, 2022
Malaya-Speech is a Speech-Toolkit library for bahasa Malaysia, powered by Deep Learning Tensorflow.

Malaya-Speech is a Speech-Toolkit library for bahasa Malaysia, powered by Deep Learning Tensorflow. Documentation Proper documentation is available at

HUSEIN ZOLKEPLI 151 Jan 05, 2023
To create a deep learning model which can explain the content of an image in the form of speech through caption generation with attention mechanism on Flickr8K dataset.

To create a deep learning model which can explain the content of an image in the form of speech through caption generation with attention mechanism on Flickr8K dataset.

Ragesh Hajela 0 Feb 08, 2022
Code for CodeT5: a new code-aware pre-trained encoder-decoder model.

CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation This is the official PyTorch implementation

Salesforce 564 Jan 08, 2023
Code for the paper: Sequence-to-Sequence Learning with Latent Neural Grammars

Code for the paper: Sequence-to-Sequence Learning with Latent Neural Grammars

Yoon Kim 43 Dec 23, 2022