小册描述
目录
- 100 | WikiSQL任务简介
- 101 | ASDL和AST
- 102 | Tranx简介
- 103 | Lambda Caculus概述
- 104 | Lambda-DCS概述
- 105 | Inductive Logic Programming:基本设定
- 106 | Inductive Logic Programming:一个可微的实现
- 107 | 增强学习的基本设定:增强学习与传统的预测性建模有什么区别?
- 108 | 最短路问题和Dijkstra Algorithm
- 109 | Q-learning:如何进行Q-learning算法的推导?
- 110 | Rainbow:如何改进Q-learning算法?
- 111 | Policy Gradient:如何进行Policy Gradient的基本推导?
- 112 | A2C和A3C:如何提升基本的Policy Gradient算法
- 113 | Gumbel-trick:如何将离散的优化改变为连续的优化问题?
- 114 | MCTS简介:如何将“推理”引入到强化学习框架中
- 115 | Direct Policty Gradient:基本设定及Gumbel-trick的使用
- 116 | Direct Policty Gradient:轨迹生成方法
- 117 | AutoML及Neural Architecture Search简介
- 118 | AutoML网络架构举例
- 119 | RENAS:如何使用遗传算法和增强学习探索网络架构
- 120 | Differentiable Search:如何将NAS变为可微的问题
- 121 | 层次搜索法:如何在模块之间进行搜索?
- 122 | LeNAS:如何搜索搜索space
- 123 | 超参数搜索:如何寻找算法的超参数
- 124 | Learning to optimize:是否可以让机器学到一个新的优化器
- 125 | 遗传算法和增强学习的结合
- 126 | 使用增强学习改进组合优化的算法
- 127 | 多代理增强学习概述:什么是多代理增强学习?
- 128 | AlphaStar介绍:AlphaStar中采取了哪些技术?
- 129 | IMPALA:多Agent的Actor-Critic算法
- 130 | COMA:Agent之间的交流
- 131 | 多模态表示学习简介
- 132 | 知识蒸馏:如何加速神经网络推理
- 133 | DeepGBM:如何用神经网络捕捉集成树模型的知识
- 134 | 文本推荐系统和增强学习
- 135 | RL训练方法集锦:简介
- 136 | RL训练方法:RL实验的注意事项
- 137 | PPO算法
- 138 | Reward设计的一般原则
- 139 | 解决Sparse Reward的一些方法
- 140 | Imitation Learning和Self-imitation Learning
- 141 | 增强学习中的探索问题
- 142 | Model-based Reinforcement Learning
- 143 | Transfer Reinforcement Learning和Few-shot Reinforcement Learning
- 144 | Quora问题等价性案例学习:预处理和人工特征
- 145 | Quora问题等价性案例学习:深度学习模型
- 146 | 文本校对案例学习
- 147 | 微服务和Kubernetes简介
- 148 | Docker简介
- 149 | Docker部署实践
- 150 | Kubernetes基本概念
- 151 | Kubernetes部署实践
- 152 | Kubernetes自动扩容
- 153 | Kubernetes服务发现
- 154 | Kubernetes Ingress
- 155 | Kubernetes健康检查
- 156 | Kubernetes灰度上线
- 157 | Kubernetes Stateful Sets
- 158 | Istio简介:Istio包含哪些功能?
- 159 | Istio实例和Circuit Breaker