[17442] 2017-07-10_论道完善强化学习安全性:UCBerkeley提出约束型策略优化新算法(附代码)

文档创建者:s7ckTeam
浏览次数:16
最后更新:2025-01-18
2017-07-10_论道完善强化学习安全性:UCBerkeley提出约束型策略优化新算法(附代码)   |   U C   B e r k e l e y   G e e k P w n   2 0 1 7 - 0 7 - 1 0   G e e k P w n   !   B A I R   B l o g   J o s h u a   A c h i a m S m i t h 仿 U C   B e r k e l e y   C o n s t r a i n e d   P o l i c y   O p t i m i z a t i o n C P O d e e p   R L a g e n t 仿 o b j e c t   m a n i p u l a t i o n
U A V   C o n t r o l C o n s t r a i n e d   P o l i c y   O p t i m i z a t i o n C P O c o s t l i m i t 使 p r o b a l i s t i c a l l y   s a f e   p o l i c y   t r a n s f e r   C P O     C P O   仿 C P O   r e w a r d   C P O   h t t p s : / / g i t h u b . c o m / j a c h i a m / c p o c o n s t r a i n t p r e - s e l e c t e d   t h r e s h o l d
使 a u t o n o m o u s s y s t e m s c o n s t r a i n t - s a t i s f y i n g C P O     C P O   C P O l o c a l p o l i c y g r a d i e n t 使
  A n d r e j   K a r p a t h y   h t t p : / / k a r p a t h y . g i t h u b . i o / 2 0 1 6 / 0 5 / 3 1 / r l / T r u s t   r e g i o n   m e t h o d 使   K L   - a v e r a g e   K L - d i v e r g e n c e K L   - K L   -   D u a n   e t   a l . ,   2 0 1 6 C P O   使   C P O     K L   绿 C P O     K L   - 使 使   C P O     C P O  
绿 C P O   C P O   绿   0 . 1     C P O     C P O     C P O   使   C P O     C P O   [ 1 ]   A s y n c h r o n o u s   M e t h o d s   f o r   D e e p   R e i n f o r c e m e n t   L e a r n i n g h t t p s : / / a r x i v . o r g / a b s / 1 6 0 2 . 0 1 7 8 3 [ 2 ]   T r u s t   R e g i o n   P o l i c y   O p t i m i z a t i o n h t t p s : / / a r x i v . o r g / a b s / 1 5 0 2 . 0 5 4 7 7 [ 3 ]   S e n s o r i m o t o r   D e e p   L e a r n i n g h t t p : / / r l l . b e r k e l e y . e d u / d e e p l e a r n i n g r o b o t i c s / [ 4 ]   R o b o t s   t h a t   L e a r n h t t p s : / / b l o g . o p e n a i . c o m / r o b o t s - t h a t - l e a r n / [ 5 ]   M a s t e r i n g   t h e   g a m e   o f   G o   w i t h   D e e p   N e u r a l   N e t w o r k s   &   T r e e   S e a r c h h t t p s : / / d e e p m i n d . c o m / r e s e a r c h / p u b l i c a t i o n s / m a s t e r i n g - g a m e - g o - d e e p - n e u r a l - n e t w o r k s - t r e e - s e a r c h / [ 6 ]   C o n s t r a i n e d   M a r k o v   D e c i s i o n   P r o c e s s e s h t t p : / / w w w - s o p . i n r i a . f r / m e m b e r s / E i t a n . A l t m a n / T E M P / h . p d f [ 7 ]   P r o b a b i l i s t i c a l l y   S a f e   P o l i c y   T r a n s f e r h t t p s : / / a r x i v . o r g / a b s / 1 7 0 5 . 0 5 3 9 4 [ 8 ]   C o n s t r a i n e d   P o l i c y   O p t i m i z a t i o n h t t p s : / / a r x i v . o r g / a b s / 1 7 0 5 . 1 0 5 2 8 [ 9 ]   F a u l t y   R e w a r d   F u n c t i o n s   i n   t h e   W i l d h t t p s : / / b l o g . o p e n a i . c o m / f a u l t y - r e w a r d - f u n c t i o n s / [ 1 0 ]   T r u s t   R e g i o n   P o l i c y   O p t i m i z a t i o n h t t p s : / / a r x i v . o r g / a b s / 1 5 0 2 . 0 5 4 7 7 [ 1 1 ]   K u l l b a c k L e i b l e r   d i v e r g e n c e h t t p s : / / e n . w i k i p e d i a . o r g / w i k i / K u l l b a c k % E 2 % 8 0 % 9 3 L e i b l e r _ d i v e r g e n c e [ 1 2 ]   B e n c h m a r k i n g   D e e p   R e i n f o r c e m e n t   L e a r n i n g   f o r   C o n t i n u o u s   C o n t r o l h t t p s : / / a r x i v . o r g / a b s / 1 6 0 4 . 0 6 7 7 8
h t t p : / / b a i r . b e r k e l e y . e d u / b l o g / 2 0 1 7 / 0 7 / 0 6 / c p o /   |     |   G e o H o t S i r i . . . . . .   |     A I     . . . . . .
    G e e k P w n   G e e k   P w n   G e e k P w n   K E E N 2 0 1 4     1 0     2 4     2 0 1 6     G e e k P w n   G e e k P w n   2 0 1 7     5     G e e k P w n   G e e k P w n     1 0     2 4     1 1   1 1     2 0 1 6     C T F   2 0 1 7     G e e k P w n     N e x t   I d e a   广 9     3 0   1 0   1 0    
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则