type
status
date
slug
summary
tags
category
icon
password
第一章 自然语言理解
- 自然语言处理难点:
- 单词边界界定
- 词义消歧
- 句法模糊性
- 有瑕疵的或不规范的输入
- 语言行为与计划
- 将深度学习应用到NLP过程中,出现的两个突破性技术是序列到序列学习和注意力建模
- 自然语言处理的应用:
- 文本方面 机器翻译、自动文本摘要、文本分类、自动问答系统、复杂检索任务
- 语音方面 机器同声传译、聊天机器人、人工智能客服
- NLP中深度学习的局限性: 普遍缺乏可解释性,甚至远离可解释性、需要更多的训练数据、功耗和计算资源、容易遭受灾难性失败或攻击。
第二章 自然语言处理基础
- 自然语言处理一般可分为:
- 语料库与语言知识库的获取
- 文本预处理
- 文本向量化表示
- 模型训练与预测
- 语料库(corpus)即语料集合,自然语言处理领域的数据集,是为一个或多个应用目标而专门收集的,有一定结构性、代表性、检索性、规模性的语料集合。存放语料的数据库。
- 语料库具备三个显著特点:
- 存放真实出现过的语言材料
- 以电子计算机为载体承载语言知识的基础资源,但并不等于语言知识
- 真实语料需要经过加工
- 语料库的分类
- 按语言种类:单语语料库(Monolingual Corpus) 双语/多语语料库(Bilingual/Multi-lingual Corpus)
- 按加工深度:非标注语料库(Non-Annotated Corpus)标注语料库(Annotated Corpus)
- 按用途:通用语料库(General Corpus)专用语料库(Specialized Corpus)
- 按发布时间:共时语料库(Synchronic Corpus)历时语料库(Diachronic Corpus)
- 按动态更新程度:参考语料库(Reference Corpus)监控语料库(Monitor Corpus)
- 语料库构建基本原则:
- 代表性 语料库是在一定的抽样框架范围内采集而来的,并且能在特定的抽样框架内做到代表性和普遍性
- 结构性 语料库必须以电子形式存在,计算机可读的语料库结构性体现在语料记录的代码、元数据项、数据类型、数据宽度、取值范围、完整性约束。
- 平衡性 同一语言上的平行,语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的;多种语言之间的平行采样和加工
- 元数据 元数据是描述数据的数据(data about data),主要是描述数据属性(property)的信息,如语料的时间、地域、作者、文本信息等,元数据能够帮助使用者快速理解和使用语料库,对于研究语料库有着重要的意义。
- 规模性 大规模的语料对语言研究特别是对自然语言研究处理十分必要,但达到一定规模后,更多的数据未必会有性能的提升,语料库规模应根据实际情况而定。
- 文本预处理方法 (1). 数据清洗 (2)分词处理 (3)特征过滤
- 常见的特征过滤方法有3种: 停用词过滤 词干提取 基于频率的过滤
- 文本向量化表示的方法:
- 1. 独热表示(One-Hot)
- 2. 词袋表示(BOW)
- 3. 词频-逆文档频率(TF-IDF) 词频-逆文档频率的核心思想是:若一个词在一篇文章中出现次数较多且在其他文章中很少出现,则认为这个词具有很好的类别区分能力,该词的重要性也越高
- 4. Word2Vec模型

缺点:1) 无法表示词之间的关系 2)无法衡量不同词的重要程度 3)稀疏向量,资源浪费

缺点:1)忽略了句子中词的位置信息 2)词频无法确切表示词的重要程度\


优点:在词袋表示的基础上进行了一定改进,在保留文章重要词的同时可以过滤掉一些常见的、无关紧要的词
缺点:1)忽略了句子中词的位置信息:与词袋模型相同,也未考虑词的位置信息;2)精度问题:IDF是一种试图抑制噪声的加权,更倾向于文中频率较小的词,这使得TF-IDF算法的精度不够高。

第三章 神经网络与深度学学习
- 激活函数
- Sigmoid函数
- Tanh函数(双曲正切函数)
- ReLU函数
- 扩展到多类-Softmax
- 循环神经网络
- 梯度消失、梯度爆炸
- 只能从前到后捕捉单向信息,导致信息丢失

状态更新:
循环单元计算公式: 循环神经网络的问题:
- LSTM通过加入门控机制改善梯度消失或爆炸 3个门+1个单元


LSTM解决了RNN梯度消失和爆炸的问题
- 门控循环单元(Gate Recurrent Unit, GRU)

2门+1状态
LSTM的输入门和遗忘门对应GRU的更新门

- 思考题:
- 请简述神经网络与深度学习之间的关系。
- 请描述卷积神经网络的基本结构。
- 请写出注意力机制中各个量的计算公式。
- 请简述循环神经网络适用于序列问题的原因。
- 请写出长短时记忆网络能够解决梯度消失问题的推导过程。
- 请简述深度学习中包括哪些重要环节,并简要介绍。
- 请分析不同激活函数的优缺点。
- 请分析反向传播算法能够提高计算效率的原因。
第四章 语言模型
- N元(N-gram)语言模型是一种广泛使用的统计语言模型,也是在神经网络模型出现之前最广泛适用的一种语言模型。N元语言模型引入了马尔可夫假设(Markov assumption):一个单词出现的概率只与它前面出现的有限的一个或几个单词有关。 N=1:一元语言模型(unigram),每个单词出现的概率只和它自己有关,在这种情况下,每个单词出现的概率与上下文无关。 N=2:二元语言模型(bigram),一个词的出现仅依赖于它前面出现的一个词


- 由于模型的训练文本的规模及其分布存在着一定的局限性和片面性 解决方法:数据平滑,提高低概率(如零概率),降低高概率,尽量使概率分布趋于平均。 为了避免因为乘以0导致整个句子的概率为0,需要加入平滑(smoothing)来避免参数取零。典型的平滑算法有加法平滑、Good-Turing平滑、Katz平滑、插值平滑,等等。最简单的加法平滑如下式所示:
- N-gram语言模型存在很多问题,其中一个很重要的问题是N-gram只考虑到其相邻的有限个单词,无法获得上下文的长时依赖
- 语言模型的评价指标 困惑度:度量一个概率分布或概率模型预测样本的好坏程度。定义如下:给定测试集中的句子S,模型困惑度为:
- 预训练本质是模型参数不再随机初始化,而是通过一些任务(如语言模型)进行预训练。
- 语言模型训练的任务目标是:根据单词wi的上下文去正确预测单词wi,wi之前的单词序列称为上文,之后的单词序列称为下文。
- ELMo的预训练模型为双层双向的LSTM
- ELMo模型预训练时不可同时看到上下文 LSTM层数L一般取2 对于一个输入单词,可学出2L+1个词向量

- ELMo的优缺点: 优点:普适性强,适用于分类任务、阅读理解等多个领域 缺点:串行计算,效率低 方向限定,始终无法同时看到两边的单词
- BERT使用的主要特征提取器是Transformer
- Transformer-Attention机制 Self-attention矩阵表示:X,Q,K,V的每一行都表示一个单词。

- 解码器独有:1. 编码器-解码器注意力机制 2. Mask掩码
第五章 分类任务
- 自然语言处理包含四大主流任务,分别为:分类任务、生成式任务、序列标注任务和句子关系推断任务
- 分类任务:文本分类、情感分析、意图识别
- 生成式任务:机器翻译、文本摘要、阅读理解、问答系统、对话系统
- 序列标注:命名体识别、词性标注
- 句子关系推断:文本推断、文本语义相似度
- 评价指标
- 分类任务
{#fig:label width="3 in"}




- 交叉熵损失函数:
- 情感分析的研究领域(后三种):
- 基于篇章的情感分析
- 基于句子的情感分析
- 基于视角的情感分析
- 基于词的情感分析
- 意图识别任务作为分类任务之一,其作用在于识别出文本所蕴含的意图。
第六章 信息抽取
- 信息抽取可分为:
- 命名体识别:识别出文本中表示命名实体的成分,并对其进行分类
- 实体链指:将出现在文章中的名称链接到其所指代的实体上去
- 关系抽取:在已完成实体识别的基础上,确定实体间的关系类别
- 事件抽取:从非结构化文本中准确有效的发现特定事件及事件元素,用自然语言表达的事件以结构化的形式呈现出来
- 组成事件的各元素包括:触发词、事件类型、论元及论元角色。
知识图谱
- 知识图谱的形式化、通用表示:三元组
- 知识图谱的应用场景:语义搜索、智能问答、推荐系统、辅助决策
- 知识图谱生命周期包括知识表示、知识抽取、知识存储、知识融合、知识推理和知识应用多个方面

- 知识的表示形式:
- 谓词逻辑表示
- 产生式表示
- 框架表示
- 基于本体的知识表示
- 语义网络
- 知识融合通常由两部分构成,分别是本体匹配和实体对齐。
- 知识对齐VS实体消岐VS实体链接

- 知识推理是指是利用知识图谱中现有的知识(三元组),得到一些新的实体间关系或者实体属性,也可以指在知识表示的基础上进行问题分析、解答的过程,即根据一个或者一些已知条件得出结论的过程。
第九章 摘要生成
- 抽取式摘要和生成式摘要:


- 用于文本摘要的评价指标主要有ROUGE-1、ROUGE-2、ROUGE-L三个指标
- 生成式文本摘要的主流:序列到序列模型(Seq2Seq)
- 序列到序列生成结构主要由编码器(Encoder)和解码器(Decoder)组成 编码器:将输入文本编码成一个向量,作为原文本的表征,该向量包含了文本的上下文信息 解码器:从该向量提取重要信息,并进行剪辑加工,生成文本摘要。
- Author:推半
- URL:www.woax.top/article/nlp
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!