首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

MATLAB强化学习入门——三、深度Q学习与神经网络工具箱

上一期的文章《网格迷宫、Q-learning算法、Sarsa算法》的末尾,我们提到了Q学习固有的缺陷:由于智能体(agent)依赖以状态-动作对为自变量的Q函数表(Q Function Table)来形成对当前状态的估计,并以此为依据利用策略π选择动作。Q函数表就必须包含智能体在环境中所可能出现的所有动作-状态对及其对应Q值。显然,当一个多步决策问题变得足够复杂甚至变为连续决策或控制问题时,Q学习本身是无力应对的。例如,对于复杂的多步决策问题,庞大而结构复杂的Q表将变得难以存储和读取;将网格迷宫的长、宽各扩大10倍,Q表则变成原来的100倍。对于连续决策/控制问题时,Q表更是无法记录所有的状态。 那么,如何解决这一问题呢? 一个直截的想法就是,选择某个多元函数,逼近Q表中“自变量”动作-状态对与“因变量”Q值形成的关系。但这样做依然存在问题:对于不同的强化学习问题,Q表中的数据呈现出各异的曲线特性,只有找到符合Q表数据的函数形式,才可能良好的逼近Q表。选择传统函数进行逼近,显然是很难实现编程自动化的。 神经网络(Neural Network)恰恰是这么一种有别于传统函数逼近的解决方案。而从数学的角度讲,神经网络本质上就是一种强大的非线性函数逼近器。将神经网络与Q学习结合起来,就得到了能够解决更复杂问题的Q-Network以及使用深度神经网络的Deep-Q-Network (DQN)。 Deep-Q-Learning的算法究竟是什么样的?浙江大学的《机器学习和人工智能》MOOC有着大致的讲解。而如何实现Deep-Q-Learning?莫烦Python以及北理工的MOOC也给出了Python语言的详细示范。 尽管有关Deep-Q-Learning的程序和讲解已经很多权威且易懂的内容;准确的理解Deep-Q-Learning算法,并在MatLab上实现,则是完成强化学习控制这个最终目标的关键。具体到Deep-Q-Learning的实现上,它不仅与之前的Q-Learning在程序结构上有着相当大的区别,直接将它应用于连续控制问题也会是非常跳跃的一步。因此,在这一期的文章里,问题将聚焦在前后两个问题之间:如何使用神经网络让智能体走好网格迷宫? 将这个问题再细分开来,则包括两部分:

04

强化学习在黄页商家智能聊天助手中的探索实践

本地服务(黄页)微聊代运营模式是指人工客服代替58平台上的商家与C端用户IM沟通聊天以获取商机(如用户联系方式、细粒度需求信息等),再将商机转交给商家,促进商家成单。我们基于58AI Lab自研的灵犀智能语音语义平台构建了智能客服商家版,将其应用在微聊代运营场景下,通过人机协作模式提高商机获取效率,打造了黄页商家智能聊天助手。这里的人机协作模式先后经历了三个阶段:在早期机器人效果较一般时,机器人和人工客服分时工作,即人工客服不上班时才由机器人接待用户咨询。在经过优化机器人效果较优时,先机器人再人工,即当用户来咨询商家时,白天先由机器人接待,若机器人能够聊出商机则结束会话,若不能再转接人工客服,晚上使用纯机器人接待。在机器人效果和人工很接近甚至超过人工时,使用纯机器人接待,人工客服去从事其他更复杂的工作。2021年年初,黄页商家智能聊天助手被商业化,以“微聊管家”命名随会员套餐一起打包售卖给商家,全年共计服务了数万个商家,为公司创造收入超过五千万元。当前,机器人的商机转化率(聊出商机的会话数/总会话数)已达到了人工客服的98%水平,我们实现了纯机器人接待,节省了数十名客服人力。

02

好文:来自OCO-3的以城市为中心的卫星CO2观测:洛杉矶特大城市的初步观测

摘要:NASA的轨道碳观测站3(OCO-3)旨在支持对人为二氧化碳排放量的量化和监测。其快照区域图(SAM)和目标模式测量结果为郊区城市的碳研究提供了创新的数据集。与当前的任何其他天基仪器不同,OCO-3能够扫描大面积连续的发射热点区域,例如城市,发电厂和火山。这些测量结果产生了二氧化碳的平均柱干空气摩尔分数(XCO2)的密集,精细的空间图。首次,我们展示并分析了从OCO-3 SAM和目标模式观测值得出的洛杉矶大城市(LA)上的XCO2分布。相对于干净的背景,城市XCO2的增强范围为0 − 6 ppm(中位数增强≃2 ppm),并且与附近基于地面的XCO2 TCCON测量值显示出极好的一致性。OCO-3的密集观测揭示了城市中XCO2的城市内部变化,这是以前从未从太空中观察到的。空间变化主要是由LA盆地中复杂的化石燃料排放模式和气象条件驱动的,并且与共同排放的NO2的TROPOMI测量结果相吻合。来自两个模型(WRF-Chem和X-STILT)的实测XCO2增强和模拟XCO2增强之间的差异通常低于1 ppm,某些子区域的差异较大。这两个模型都捕获了观察到的城市内部XCO2梯度。此外,OCO-3的多段测量可捕获到的城市排放量是单段立交桥的三倍。OCO-3对目标和SAM模式的频繁观察将为在更细的副城市规模上限制城市排放铺平道路。

03
领券