机械设计
推荐 0
浏览 228
TensorFlow(二)——逻辑回归
逻辑回归是深度学习中的最基础的例子,今天来看一下如何使用TensorFlow写一个简单的逻辑回归算法。逻辑回归可以看成只具有一层网络的前馈式神经网络,它的公式为Y_predict=logistic(X*W+b),其中X为输入,W为输入与隐含层之间的连接权重,b为隐含层神经元的偏置,而logistic为激活函数,一般
机械设计
推荐 0
浏览 277
TensorFlow(一)——基础图模型
穿插整理一系列以前的笔记,将围绕TensorFlow来讲解深度学习的知识,形式以原理解说+代码演示为主,首先来讲讲TensorFlow的基础知识。TensorFlow是基于计算图模型的深度学习框架,每个TensorFlow程序都有一个默认图,一般情况下我们在程序中所添加的操作(operation,简称op)都是添加
机械设计
推荐 0
浏览 259
n-Armed Bandit Problem(二)
在Bandit问题的第一期提到(n-ArmedBanditProblem(一)),我们可以使用贪婪算法来得到最大回报。这种贪婪算法有两种,即e等于0或e不等于0。接下来,我们可以分别写出它们的代码并得到实验结果。 根据之前假设,每个决策都会得到一个由高斯分布产生的随机回报值。而这个假设是固定不变的,因此我们可以先写
机械设计
推荐 0
浏览 193
n-Armed Bandit Problem(一)
强化学习的核心就是一个最优函数使得总回报达到最大,这个最优方程又称为Bellman方程,而解决这种最优问题常用的思路就是动态规划(详见:RL(一)——马尔科夫决策过程,我对动态规划算法的理解(一)),如果不使用动态规划算法的话,那么后果就是计算量变得异常庞大,例如一个大小为5*5的棋盘,如果按照上一期中提到的状态空
密泰传动系统
推荐 0
浏览 209
RL(一)——马尔科夫决策过程
强化学习的应用领域之多相信大家都有所听闻,无论是机器人控制领域、优化管理、金融领域、通信等都有涉及,印象最深应该就是今年的围棋比赛了吧,其中使用了深度强化学习。今天来讲讲强化学习中的最基本原理——马尔科夫决策过程,以下简称MDP。前面在DP算法中有提到,DP算法可以理解为由状态、策略、转移函数三部分组成(详见:我对