假如咱们再次添加一个来自外界的影响比方智能体的动作,就得到了马尔可夫决议计划进程(MDP)
在马尔可夫决议计划进程中, (S是状况的调集)和 (R是奖赏的调集)的每个或许的值呈现的概率只取决于前一个状况 和前一个动作 (A是动作的调集),而且与更早之前的状况和动作彻底无关
换言之,当给定当时状况 (比方 ),以及当时采纳的动作 (比方 ),那么下一个状况 呈现的概率,可由状况搬运 概率矩阵表明如下
考虑到在当时状况 和当时动作确认后,那么其对应的即时奖赏则也确认了 ,故sutton的RL一书中,给的状况搬运概率矩阵 类 似为
至于进程中采纳什么样的动作就涉及到战略policy,战略函数能表述为函数(当然,这儿的跟圆周率没半毛钱联系)
此外,还会有这样的表述:,相当于在输入状况确认的情况下,输出的动作只和参数有关,这个便是战略函数的参数
通 过上文,咱们已知道不同状况呈现的概率不一样(比方今天是晴天,那明日是晴天,仍是雨天、阴天不必定),同一状况下履行不同动作的概率也不一样(比方即便在天气预报猜测明日大概率是天晴的情况下,你大概率不会带伞,但仍然不扫除你或许会避免忽然下雨而带伞)
相当于对当时状况S根据战略履行动作得到的希望报答,这便是大名鼎鼎的Q函数,得到Q函数后,进入某个状况要采纳的最优动作便能够终究靠Q函数得到
当有了战略、价值函数和模型3个组成部分后,就形成了一个马尔可夫决议计划进程(Markov decision process)。如下图所示,这个决议计划进程可视化了状况之间的搬运以及采纳的动作。
且经过状况搬运概率散布,咱们咱们能够提醒状况价值函数和动作价值函数之间的联系了
在运用战略时,状况S的价值等于在该状况下根据战略采纳一切动作的概率与相应的价值相乘再求和的成果
而运用战略时,在状况S下采纳动作的价值等于当时奖赏,加上经过衰减的一切或许的下一个状况的状况搬运概率与相应的价值的乘积
针对这个公式 大部分材料都会一带而过,但不扫除会有不少读者问怎样来的,考虑到关于数学公式咱们不能想当然靠直觉的自认为,所以仍是得如数家珍的推导下
想在NLP范畴更体系、深化提高的同学,我主张你看下【NLP高档小班 第十一期】
考虑到市面上课程大都以讲技能、讲理论为主,鲜有真实带着学员一步步自始至终完成企业级项目的高端课程,故咱们让大厂技能专家手把手带你实战大厂项目。一方面,让咱们更好的在职提高,另一方面,力求让每位同学都深刻了解NLP的各大模型、理论和运用。
五大技能阶段:分别从NLP根底技能、深度学习在NLP中的运用、Seq2Seq文本生成、Transformer与预练习模型、模型优化比及新技能的运用,包含且不限于GPT、对立练习、prompt小样本学习等
八大企业项目:包含机器翻译体系、文本摘要体系、常识图谱项目、谈天机器人体系,以及根本文本的问答体系、FAQ问答机器人、文本引荐体系、谈天机器人中的语义了解
关于技能阶段,新增文本检索体系中的关键技能和22年年末爆火的ChatGPT原了解析
面向集体:本课程合适现已在做AI的进一步在职提高,比方在职上班族换岗涨薪/升职加薪,选用严厉挑选制(经过率不到1/3),需求具有必定的根底才干才干报名经过,故以下同学优先:
【NLP高档小班 第十一期】已开营,放5个免费试听名额,有意找苏苏教师(VX:julyedukefu008)或七月在线其他教师请求试听了解课程