这是第一次写分享,内容相对简单,主要是受到阮一峰的影响,每周都能写出高质量的文章,再此由衷感到敬佩、膜拜。于是我也想写点东西,在摸索中慢慢前行吧。
本周的学习方向
识别识别,关系抽取和入门强化学习。
实体识别技术NER
实体识别主要识别文本中的人名、组织机构、地名、时间等实体。通过对大量数据标注,模型很容易学到某种上下文关系对应的实体内别。如果对于特殊领域的数据集,基于规则的匹配也是一种解决思路。
关系抽取
目前NLP非常重要的方向,常常也是行业内的难点,关系抽取
。关系抽取是基于实体识别之后的工作,目的在于找到实体之间的关系。在现实文本中,实体的种类较多,关系就更多且复杂,往往自然语言的描述会暗含很多上下文语境,人工理解有时都非常困难。
比如乔布斯一手创办的苹果公司,估值曾经一度破万亿美金。其中实体识别需要识别出,乔布斯
和苹果公司
,接下来就是关系抽取要做的事情了,识别出这两个实体关系。(乔布斯
,苹果公司
)是归属关系或者执掌关系,这个关系在抽取之前需要标记好。
关系抽取有很多方式,最简单当然是基于规则模式的。就是通过编写规则来抽取实体的关系,如A
创办了B
,那么这两个实体就是归属关系了。除此之外用的较多的就是深度学习关系抽取。
关系抽取的意义在于准确理解文本。比如在对话机器人中,首先必须识别实体和实体的关系,确定对方的意图,然后才能给出答案。抽取出来的往往是三元关系,直接可以构建出知识图谱
。
入门强化学习
学习任何一门新知识前,必须先理解这门学科的基础概念。强化学习的几个基本概念分别是智能体
,环境
,马尔科夫决策过程
(MDP),状态
,奖励
,行动
,贝尔曼方程
,状态值函数
,行动值函数
。本周掌握了强化学习概念,并且尝试了简单的例子。感慨强化学习真的是一门很有意思的学科。
推荐软件
我本人是师范毕业,周围很多同学都是老师。他们大多数使用的工具比较落后。比如他们通常用word来编辑试题,缓慢的用MathType瞧着丑陋的公式,一套试卷编辑排版往往花费大量时间。教师的教案笔记也多为手写版本,要电子化打印或者分发往往没有时间也没有动力。
markdown编辑器
无论上Windows还是Mac平台都有非常好的编辑器。其中Windows平台Typora非常好用,所见所得类似word文档,不用再排版上花时间,写入数学公式美观而且效率非常高。
Mac平台pages
Pages
是Mac平台的文档编辑器。在办公方面建议购买Mac的硬件,笔记本和iPad都非常的方便。尤其是ipad+pencil+键盘,你都无法想象什么叫生产力。知乎和B站有大量的视频和资料介绍软件的使用。
LaTeX软件
中文通常使用CTex,就是中文的Tex。写学术论文必备,尤其整理理工科类资料非常方便。缺点就是学习曲线较高,入门难度较大。后续我会继续更新教程。
本周电影推荐
《出租车司机》
宋康昊主演出租车司机,一部揭露韩国政府在光州事件中,血腥镇压工人和学生运动,把他们打为赤色分子,在全国范围内报道扭曲现实的伪新闻。这个小出租车司机最后被良知唤醒的过程。影片跌宕起伏……。不能再剧透了。
很遗憾的是在网上找不到配图了。当时豆瓣评分9分以上(具体记不清了),并且引发与国内某时间的热议,导致大陆地区基本全网清除了。如果想看可以私信我,通过微博或者邮件。
《轮到你了》
轮到你了豆瓣评分8.7,日本的犯罪片非常出名,这部片子目前第一季基本更新结束,是否会有第二季不得而知。看过的小朋友都是挺不错的。