About: Reinforcement learning

Facets (new session)
Description
Metadata
Settings
- Rule:
- Inverse Functional Properties:
- "Same As":

About: Reinforcement learning Goto Sponge NotDistinct Permalink

An Entity of Type : yago:Whole100003553, within Data Space : dbpedia.org associated with source document(s)
QRcode icon

http://dbpedia.org/describe/?url=http%3A%2F%2Fdbpedia.org%2Fresource%2FReinforcement_learning

Reinforcement learning (RL) is an area of machine learning concerned with how intelligent agents ought to take actions in an environment in order to maximize the notion of cumulative reward. Reinforcement learning is one of three basic machine learning paradigms, alongside supervised learning and unsupervised learning.

Attributes	Values
rdf:type	Thing place yago:WikicatMarkovModels yago:Assistant109815790 yago:CausalAgent100007347 yago:LivingThing100004258 yago:Model110324560 yago:Object100002684 yago:Organism100004475 yago:Person100007846 yago:PhysicalEntity100001930 yago:Worker109632518 yago:YagoLegalActor yago:YagoLegalActorGeo yago:Whole100003553
rdfs:label	Reinforcement learning (en) تعليم مدعوم (ar) Aprenentatge per reforç (ca) Zpětnovazební učení (cs) Bestärkendes Lernen (de) Ενισχυτική μάθηση (el) Aprendizaje por refuerzo (es) Apprentissage par renforcement (fr) Apprendimento per rinforzo (it) 強化学習 (ja) 강화 학습 (ko) Uczenie przez wzmacnianie (pl) Förstärkningsinlärning (sv) Обучение с подкреплением (ru) 强化学习 (zh) Навчання з підкріпленням (uk)
rdfs:comment	Zpětnovazební učení je způsob učení se pomocí zpětné vazby. Po celý svůj život dostáváme ze svého okolí nepřetržitě zpětnou vazbu. Často ji ale sami neregistrujeme a naše budoucí chování pak není ovlivněno, protože jsme mezi své zkušenosti a znalosti nepřidali informace získané zpětnou vazbou. Kritickým faktorem zpětnovazebního učení je tedy uvědomění zpětné vazby. V praxi se k tomu využívá často lektor, který nám zpětnou vazbu pomůže identifikovat,nebo nám ji podá. (cs) En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (ex. : robot), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative. L'agent cherche, au travers d'expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'état courant l'action à exécuter) optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps. (fr) 強化学習（きょうかがくしゅう、英: reinforcement learning）とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策（policy）を学習する。環境はマルコフ決定過程として定式化される。代表的な手法としてTD学習やQ学習が知られている。 (ja) Обучение с подкреплением (англ. reinforcement learning) — один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. С точки зрения кибернетики, является одним из видов кибернетического эксперимента. Откликом среды (а не специальной системы управления подкреплением, как это происходит в обучении с учителем) на принятые решения являются сигналы подкрепления, поэтому такое обучение является частным случаем обучения с учителем, но учителем является среда или её модель. Также нужно иметь в виду, что некоторые правила подкрепления базируются на неявных учителях, например, в случае искусственной нейронной среды, на одновременной активности формальных нейронов, из-за чего их можно отнести к обучению без учителя. (ru) التعليم المعزز (reinforcement learning) هو مجال من مجالات التعليم الآلي يختص بكيفية جعل الوكيل المُبرمَج يتخذ القرار (الاختيار) في بيئة من أجل تعظيم المكافأة الكلية. التعليم المعزز هو أحد فروع التعليم الآلى الثلاثة بجانب التعليم المراقب وغير المراقب. يختلف التعليم المعزز عن التعليم المراقب بأنه لا يحتاج إلى أي أزواج من المدخلات والمخرجات، ولا يحتاج إلى تصحيح القرارات (الاختيارات) غير المثالية بشكل مباشر. عوضًا عن ذلك، يتم التركيز على الأداء المباشر، الذي ينطوي على إيجاد توازن بين الاستكشاف (للفضاء غير المجهول) و الاستغلال (للمعرفة الحالية). (ar) L'aprenentatge per reforç, o RL de l'anglès reinforcement learning, és una àrea de l'aprenentatge automàtic que desenvolupa agents que poden aprendre a triar les accions que han de realitzar en un entorn, simulat o real, per maximitzar una recompensa de forma autònoma. Més col·loquialment, l'aprenentatge per reforç estudia sistemes que interactuen amb el seu entorn i aprenen a triar les accions que funcionen millor automàticament. (ca) Bestärkendes Lernen oder verstärkendes Lernen (englisch reinforcement learning, RL) steht für eine Reihe von Methoden des maschinellen Lernens, bei denen ein Agent selbstständig eine Strategie (englisch policy) erlernt, um erhaltene Belohnungen zu maximieren. Dabei wird dem Agenten nicht vorgezeigt, welche Aktion in welcher Situation die beste ist, sondern er erhält durch die Interaktion mit seiner Umwelt zu bestimmten Zeitpunkten eine Belohnung, die auch negativ sein kann. (de) Η ενισχυτική μάθηση (reinforcement learning) στην επιστήμη των υπολογιστών είναι ένας γενικός όρος που έχει δοθεί σε μια οικογένεια τεχνικών στις οποίες το σύστημα μάθησης προσπαθεί να μάθει μέσα από την άμεση αλληλεπίδραση με το περιβάλλον. Εφαρμόζεται στον έλεγχο κίνησης ρομπότ, στη βελτιστοποίηση εργασιών σε εργοστάσια, στη μάθηση επιτραπέζιων παιχνιδιών, κτλ. Η έννοια της ενισχυτικής μάθησης είναι εμπνευσμένη από τα αντίστοιχα ανάλογα της μάθησης με επιβράβευση και τιμωρία που συναντώνται ως μοντέλα μάθησης των έμβιων όντων. Σκοπός του συστήματος μάθησης είναι να μεγιστοποιήσει μια συνάρτηση του αριθμητικού σήματος ενίσχυσης (ανταμοιβή), για παράδειγμα την αναμενόμενη τιμή του σήματος ενίσχυσης στο επόμενο βήμα. Το σύστημα δεν καθοδηγείται από κάποιον εξωτερικό επιβλέποντα για το ποια (el) El aprendizaje por refuerzo o aprendizaje reforzado (en inglés, reinforcement learning) es un área del aprendizaje automático inspirada en la psicología conductista, cuya ocupación es determinar qué acciones debe escoger un agente de software en un entorno dado con el fin de maximizar alguna noción de "recompensa" o premio acumulado. El problema, por su generalidad, se estudia en muchas otras disciplinas, como la teoría de juegos, teoría de control, investigación de operaciones, teoría de la información, la optimización basada en la simulación, estadística y algoritmos genéticos. En otros campos de investigación, donde se estudian los métodos de aprendizaje de refuerzo, se lo conoce como programación dinámica aproximada. El problema se ha estudiado en la teoría de control óptimo, aunque la (es) Reinforcement learning (RL) is an area of machine learning concerned with how intelligent agents ought to take actions in an environment in order to maximize the notion of cumulative reward. Reinforcement learning is one of three basic machine learning paradigms, alongside supervised learning and unsupervised learning. (en) L'apprendimento per rinforzo (o reinforcement learning) è una tecnica di apprendimento automatico che punta a realizzare agenti autonomi in grado di scegliere azioni da compiere per il conseguimento di determinati obiettivi tramite interazione con l'ambiente in cui sono immersi. (it) 강화 학습(Reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. 이러한 문제는 매우 포괄적이기 때문에 게임 이론, 제어이론, 운용 과학, 정보 이론, 시뮬레이션 기반 최적화, , 떼 지능, 통계학, 유전 알고리즘 등의 분야에서도 연구된다. 운용 과학과 제어 이론에서 강화 학습이 연구되는 분야는 "근사 동적 계획법"이라고 불린다. 또한 최적화 제어 이론에서도 유사한 문제를 연구하지만, 대부분의 연구가 최적해의 존재와 특성에 초점을 맞춘다는 점에서 학습과 근사의 측면에서 접근하는 강화 학습과는 다르다. 경제학과 게임 이론 분야에서 강화 학습은 어떻게 제한된 합리성 하에서 평형이 일어날 수 있는지를 설명하는 데에 사용되기도 한다. (ko) Uczenie przez wzmacnianie (uczenie posiłkowane) (ang. reinforcement learning, RL) – jeden z trzech głównych nurtów uczenia maszynowego, którego zadaniem jest interakcja ze środowiskiem za pomocą polityki na podstawie zebranych przez nią informacji. W przeciwieństwie do uczenia nadzorowanego i nienadzorowanego w uczeniu przez wzmacnianie nie przygotowuje się zestawu danych uczących, tylko środowisko (ang. environment), z którego model będzie zbierał dane automatycznie; jego celem jest zmaksymalizowanie zwracanej przez nie nagrody. Większość algorytmów uczenia przez wzmacnianie polega na przygotowaniu polityki, zebraniu za jej pomocą danych o środowisku do bufora, wytrenowaniu jej na ich podstawie i powtarzania tego procesu do osiągnięcia zamierzonego skutku. Środowiskiem może być zależnie o (pl) Förstärkningsinlärning (eng. reinforcement learning) är ett område inom maskininlärning som behandlar hur en mjukvaruagent bör agera för att maximera någon typ av sammanräknad belöning. Förstärkningsinlärning är en av tre grundläggande paradigmer inom maskininlärning, tillsammans med (eng. supervised learning) och (eng. unsupervised learning). (sv) Навчання з підкріпленням (англ. reinforcement learning) — це галузь машинного навчання, натхнена біхевіористською психологією, що вивчає питання про те, які дії (англ. actions) повинні виконувати програмні агенти в певному середовищі (англ. environment) задля максимізації деякого уявлення про сукупну винагороду (англ. reward). Через її універсальність, дану задачу вивчають і багато інших дисциплін, таких як теорія ігор, теорія керування, дослідження операцій, теорія інформації, оптимізація на основі моделювання, поліагентні системи, колективний інтелект, статистика та генетичні алгоритми. В літературі про дослідження та керування операціями галузь, що займається навчанням з підкріпленням, називається наближеним динамічним програмуванням (англ. approximate dynamic programming). Задача навча (uk) 强化学习（英語：Reinforcement learning，簡稱RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是，强化学习不需要带标签的输入输出对，同时也无需对非最优解的精确地纠正。其关注点在于寻找探索（对未知领域的）和利用（对已有知识的）的平衡，强化学习中的“探索-利用”的交换，在问题和有限MDP中研究得最多。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在其他许多领域都有研究，例如博弈论、控制论、运筹学、信息论、仿真优化、多智能体系统、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下，强化学习被称作“近似动态规划”（approximate dynamic programming，ADP）。在最优控制理论中也有研究这个问题，虽然大部分的研究是关于最优解的存在和特性，并非是学习或者近似方面。在经济学和博弈论中，强化学习被用来解释在有限理性的条件下如何出现平衡。 (zh)
rdfs:seeAlso	Value function
foaf:depiction
dcterms:subject	Reinforcement learning Belief revision Markov models
Wikipage page ID	66294 (xsd:integer)
Wikipage revision ID	1124620606 (xsd:integer)
Link from a Wikipage to another Wikipage	Bellman equation Q-learning Robotics Elevator algorithm Partially observable Markov decision process Bounded rationality DeepMind Delft University of Technology Apprenticeship learning University of Alberta University of Massachusetts Amherst Reinforcement learning Deep reinforcement learning Dopaminergic Intelligent agent Intrinsic motivation (artificial intelligence) Robot control Error-driven learning Substantia nigra Game theory Genetic algorithm Go (game) Gradient Gradient descent Monte Carlo method Monte Carlo tree search Control theory Cross-entropy method Nonparametric statistics Machine learning Simulated annealing State–action–reward–state–action Statistics Closed-form expression Multi-armed bandit Predictive state representation Proximal Policy Optimization Temporal difference learning Backgammon Action selection Transfer learning Distributed artificial intelligence Fuzzy control system Fuzzy rule Lazy evaluation Learning classifier system

Faceted Search & Find service v1.17_git139 as of Feb 29 2024

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 08.03.3330 as of Mar 19 2024, on Linux (x86_64-generic-linux-glibc212), Single-Server Edition (378 GB total memory, 62 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software