• 【論文筆記】《基于深度學習的中文命名實體識別研究》閱讀筆記

    作者及其單位:北京郵電大學,張俊遙,2019年6月,碩士論文

    摘要

    實驗數據:來源于網絡公開的新聞文本數據;用隨機欠采樣和過采樣的方法解決分類不均衡問題;使用BIO格式的標簽識別5類命名實體,標注11種標簽。

    學習模型:基于RNN-CRF框架,提出Bi-GRU-Attention模型;基于改進的ELMo可移植模型。

    一,緒論

    1,研究背景及意義

    研究背景主要介紹的是時代背景及NER的應用領域。

    2,研究現狀

    1)基于規則和詞典的方法;

    2)基于統計的方法:語言的N元模型,隱馬爾科夫模型,最大熵模型,條件隨機場,支持向量機,決策樹,基于轉換的學習方法;

    3)基于深度學習的方法:基于雙向循環神經網絡與條件隨機場結合的框架;基于標簽轉移與窗口滑動的方法;注意力機制(Attention);

    4)基于遷移學習的方法。

    面臨挑戰:

    1)中文命名實體界限難劃分;

    2)中文命名實體結構更多樣復雜;

    3)中文命名實體分類標準不同,劃分標注結果不同。

    3,研究內容

    1)數據集收集與預處理;

    2)基于雙向循環神經網絡與條件隨機場模型的研究;

    3)基于ELMo的可移植模型研究。

    二,相關技術

    1,基于循環神經網絡方法的技術

    1)神經單元結構:循環是指一個神經單元的計算是按照時間順序展開依次進行的過程。具有記憶特征,常用來處理與序列相關的問題。

    2)循環神經網絡的發展:LSTM取代CNN,主要是解決CNN單元的反向傳播的計算問題。

    3)深層網絡搭建:Dropout常被用作防止模型過擬合,減少網絡冗余度,增加模型魯棒性;批量歸一化策略是批量梯度下降算法過程的一項操作;clip是一種有效控制梯度爆炸的算法。

    4)目標函數,即損失函數,衡量經過模型計算的預測結果和事實上的結果之間的差距。如:平方差,交叉熵,softmax

    5)注意力機制:論文研究了在LSTM中引入注意力機制。

    6)Adam優化算法:適合解決梯度稀疏或噪音較高的優化問題。

    2,基于遷移學習方法的技術

    1)基本思想:

    (1)預訓練的兩種基本思路:

    a)基于共同表示形式的思路:電子文本大多以某種向量形式(詞,句,段,文本)表示輸入到網絡中,如ELMo模型。

    b)基于網絡微調的思想:借鑒機器視覺領域的模型思想,在預訓練好的模型上加入針對任務的功能層,在對后幾層進行結構和參數設置的精調。

    2)語言模型:雙向語言模型

    3)詞向量技術:One-hot向量,稀疏向量和稠密向量。

    (1)基于統計的方法

    a)基于共現矩陣的方法:在設定的窗口大小內,統計了一個句子中詞語前后相鄰出現的次數,使用這個次數構成的向量當作詞向量,這個向量比較稀疏。

    b)奇異值分解的方法:可以看作一種降維過程,把稀疏矩陣壓縮為稠密矩陣的過程。

    (2)基于語言模型的方法:

    a)跳字模型(skip-gram):使用一個詞來預測上下文詞語;

    b)連續詞袋模型(CBOW):使用周圍詞語預測中心詞;

    c)ELMo模型:詞向量表達過程是動態的,即一詞多義下的詞向量完全不同。

    4)混淆矩陣:數據科學,數據分析和機器學習中統計分類的實際結果和預測結果的表格表示。

    三,命名實體識別任務與數據集

    1,命名實體識別任務

    1)定義:命名實體識別屬于序列標注類問題,分為三大類(實體類,數量類,時間類),七小類(人名,地名,組織名,日期,時間,貨幣或者百分比)。

    2)任務過程:準確劃分出命名實體的邊界,并將命名實體進行正確的分類。

    3)判別標準:(1)準確劃分出命名實體的邊界;(2)命名實體的標注分類正確;(3)命名實體內部位置標注有序。
    $$
    準確率=\frac{標注結果正確的數量}{標注結果的數量}\times{100%} \召回率=\frac{標注命名實體正確的數量}{標注命名實體的數量}\times{100%}\F_1=\frac{(\beta^{2}+1)\times 準確率\times 召回率}{(\beta^{2}\times 準確率) + 召回率}\times{100%}
    $$

    2,數據集收集與處理

    1)數據源:本論文數據來源于搜狗實驗室公開的2012年6月到7月期間的國內外國際、體育、社會、娛樂等18類新聞文本。

    2)數據處理:jieba+盤古工具,本文研究NER分為五類:人名(58136),地名(87412),機構名(5142),時間(75491),數量(148392)。數據集(句子個數)分:訓練集(197828),驗證集(8994),測試集(3485)。

    四,基于改進的神經網絡與注意力機制結合的研究

    1,RNN-CRF框架

    1)框架結構:以Bi-LSTM-CRF模型為例,包括字嵌入層(字量化表示,輸入到神經網絡),Bi-LSTM神經網絡層(雙向網絡記錄了上下文信息,據此共同訓練計算當前的字的新向量表示,其輸出字或詞的向量維度與神經單元數量有關),CRF層(進行進一步標簽順序的規則學習)。

    2)模型原理:將輸入的語句轉換為詞向量,然后輸入到LSTM網絡計算,接著在CRF層中計算輸出標簽,根據定義的目標函數計算損失,使用梯度下降等算法更新模型中的參數。

    2,改進與設計

    1)改進的思想與結構設計:改進思路就是簡化神經單元結構,本文使用雙向的GRU結構代替LSTM單元結構,使用神經網絡與注意力機制結合。

    2)改進的模型設計

    3,實驗與分析

    1)實驗思路是以Bi-LSTM-CRF為基礎,并進行網絡優化,對比本文提出的Bi-GRU-Attention模型。

    實驗一:Bi-LSTM網絡參數

    參數名稱 數值
    batch_size 20
    max_num_steps 20
    優化器 Admin
    初始學習率 0.001
    衰減率 0.8
    clip 5
    one-hot_dim 11

    實驗二:GRU-Attention模型實驗參數

    參數 數值
    batch_size 20
    char_dim 100
    max_num_steps 20
    神經單元數 128
    優化器 Adam
    初始學習率 0.001
    衰減率 0.8
    one-hot_dim 11
    epoch 100

    實驗結果如下:

    分類/F1/模型 Bi-LSTM-CRF Bi-LSTM-Attention Bi-GRU-CRF Bi-GRU-Attention
    人名 82.32% 82.45% 82.22% 82.42%
    地名 89.97% 90.19% 89.93% 91.06%
    機構名 91.94% 91.96% 91.94% 91.95%
    數量 94.98% 95.06% 95.01% 95.26%
    時間 96.05% 96.14% 96.06% 96.14%

    五,基于ELMo的可移植模型研究

    1,改進的ELMo模型設計

    ELMo模型在2018年由Peter提出,Peter團隊使用雙層的循環神經網絡實現模型的預先訓練。本章基于PeterELMo模型設計,提出了直通結構,實現詞向量的提前訓練模型。

    1)模型原理:Peters使用CNN-BIG-LSTM網絡實現模型,使用卷積神經網絡實現字符編碼,使用兩層雙向循環神經網絡實現詞向量的訓練模型。

    2)改進與設計:本文使用改進的ELMo預先訓練模型包含輸入層,卷積神經網絡7層,雙向神經網絡2層,輸出層結構。

    2,基于ELMo的嵌入式模型設計

    1)連接結構:在模型嵌入的銜接層中,本文使用維度映射的方法,將不同維度的輸入輸出維度進行統一。

    2)模型設計:本文的嵌入ELMo模型,包含ELMo層,銜接層,神經網絡層,注意力層和輸出調整層結構。

    3,實驗

    實驗參數配置如下:

    1)ELMo模型實驗參數

    參數名稱 數值
    word_dim 100
    char_dim 50
    activation ReLU
    每層神經單元數目 512
    優化器 Adam
    初始學習率 0.001
    lr_decay 0.8
    clip 3

    2)卷積神經網絡參數

    卷積層 輸出詞向量維度 過濾器個數
    conv1 32 32
    conv2 32 32
    conv3 64 64
    conv4 128 128
    conv5 256 256
    conv6 512 512
    conv7 1024 1024

    3)移植模型實驗參數

    參數名稱 數值
    batch_size 20
    char_dim 100
    max_num_steps 20
    神經單元數 128
    優化器 Adam
    初始化學習率 0.001
    clip 5
    dropout 0.1
    one-hot_dim 11
    epoch 100

    實驗結果對比:

    分類/F1/模型 Bi-LSTM-CRF Bi-GRU-Attention 改進的ELMo嵌入模型
    人名 82.32% 82.42% 83.14%
    地名 89.97% 91.06% 92.36%
    機構名 91.94% 91.95% 93.02%
    數量 94.98% 95.26% 96.13%
    時間 96.05% 96.14% 96.55%

    六,總結與展望

    1,總結

    本文主要研究了基于深度學習的中文命名實體識別任務,提出了Bi-GRU-Attention模型減少訓練時間,提升模型準確率;提出了基于改進的ELMo可移植模型,用于應對少量數據集和快速移植不同場景的問題。

    2,不足與發展趨勢

    1)公開的權威的中文文本數據集不足;

    2)可以劃分更細的領域或分類,分別涉及分類器;

    3)基于遷移學習的多任務模型研究是熱點。

    閱讀心得:緒論內容相對詳細,結構中規中矩,美中不足缺乏對研究對象現狀的介紹,國內外研究現狀,要解決的問題以及達到的預期效果未盡闡述。技術要點論述詳盡,本文設計實驗充分且多角度論證,擴展實驗與改進設計也具有一定創新性。通過本篇論文研究學習,在NER領域收獲頗多,很多知識有待彌補,如ELMo模型,遷移學習方面需要加強學習。

    本文由博客群發一文多發等運營工具平臺 OpenWrite 發布

    posted @ 2020-03-01 15:52  天堂的鴿子  閱讀(...)  評論(...編輯  收藏
    贵州快三平台贵州快三主页贵州快三网站贵州快三官网贵州快三娱乐贵州快三开户贵州快三注册贵州快三是真的吗贵州快三登入贵州快三快三贵州快三时时彩贵州快三手机app下载贵州快三开奖 高要市 | 大连市 | 开封县 | 黄骅市 | 义马市 | 乌鲁木齐市 | 茂名市 | 育儿 | 专栏 | 新竹县 | 北票市 | 芜湖县 | 昌乐县 | 宜章县 | 海南省 | 白银市 | 仲巴县 | 榕江县 | 海南省 | 沅陵县 | 芜湖市 | 延庆县 | 三江 | 上蔡县 | 法库县 | 柳江县 | 广灵县 | 垫江县 | 平乡县 | 汤阴县 | 米脂县 | 永和县 | 武陟县 | 白银市 | 临城县 | 甘南县 | 诸城市 | 新蔡县 | 汤阴县 | 保康县 | 厦门市 | 四平市 | 英超 | 龙里县 | 东安县 | 奉化市 | 彰化市 | 成都市 | 铁岭县 | 亚东县 | 武平县 | 德令哈市 | 西峡县 | 谢通门县 | 山西省 | 合山市 | 定西市 | 舒兰市 | 内乡县 | 隆昌县 | 渭南市 | 达日县 | 锡林浩特市 | 谷城县 | 南澳县 | 宁乡县 | 三门峡市 | 丽水市 | 淮南市 | 盘山县 | 深水埗区 | 成都市 | 丽水市 | 喀什市 | 应城市 | 大同县 | 中山市 | 崇礼县 | 揭西县 | 玉龙 | 新巴尔虎右旗 | 安岳县 | 阜城县 | 微山县 | 达州市 | 堆龙德庆县 | 乌海市 | 阜阳市 | 荣成市 | 监利县 | 阳西县 | 安岳县 | 自治县 | 昭平县 | 镇平县 | 青州市 | 辽阳市 | 伽师县 | 衡南县 | 赣榆县 | 乌恰县 | 许昌县 | 吉木萨尔县 | 凭祥市 | 抚松县 | 常宁市 | 阿图什市 | 漳浦县 | 荔波县 | 成安县 | 古田县 | 惠州市 | 华蓥市 | 建水县 | 潼关县 | 库尔勒市 | 白沙 | 盈江县 | 井研县 | 保康县 | 绩溪县 | 柳林县 | 东乡族自治县 | 祁连县 | 正阳县 | 岢岚县 | 普安县 | 永康市 | 大荔县 | 禹城市 | 特克斯县 | 广丰县 | 合作市 | 宝应县 | 封开县 | 错那县 | 乌兰察布市 | 巩义市 | 会东县 | 莎车县 | 长治市 | 睢宁县 | 定远县 | 徐州市 | 黄浦区 | 仪征市 | 沈阳市 | 汽车 | 昭平县 | 平原县 | 托克托县 | 墨竹工卡县 | 长寿区 | 杭州市 | 蒲城县 | 常熟市 | 德江县 | 宣化县 | 东方市 | 宣武区 | 龙海市 | 越西县 | 湾仔区 | 乌海市 | 常山县 | 莱州市 | 即墨市 | 新乡县 | 新蔡县 | 龙山县 | 于都县 | 铜山县 | 抚松县 | 佛教 | 陆丰市 | 东阿县 | 沈阳市 | 迭部县 | 神农架林区 | 玉环县 | 镇坪县 | 垦利县 | 恭城 | 铅山县 | 灵台县 | 乌兰浩特市 | 三亚市 | 中超 | 东阿县 | 连平县 | 安宁市 | 蒲城县 | 葵青区 | 明星 | 同仁县 | 吉木乃县 | 金平 | 桑日县 | 武宣县 | 舞钢市 | 北票市 | 嘉峪关市 | 平南县 | 睢宁县 | 奉节县 | 出国 | 临海市 |