Szczegóły publikacji

Opis bibliograficzny

Analiza porównawcza skuteczności architektur Deep Q-Learning oraz Double Q-Learning w środowisku z systemem nagród — Performance comparison analysis of Deep Q-Learning and Double Q-Learning architectures in a reward-based environment / Krzysztof WRÓBEL, Michał BUGAJ, Katarzyna Szumielewicz // W: Nowe trendy i perspektywy w rozwoju nauk inżynieryjno-technicznych [Dokument elektroniczny], T. 1 / red. Izabela Mołdoch-Mendoń, Monika Maciąg. — Wersja do Windows. — Dane tekstowe. — Lublin : Wydawnictwo Naukowe TYGIEL sp. z o. o., 2023. — e-ISBN: 978-83-67881-29-6. — S. 47–65. — Wymagania systemowe: Adobe Reader. — Tryb dostępu: https://s.agh.edu.pl/eygZ8 [2024-10-16]. — Bibliogr. s. 63–64, Streszcz., Abstr. — Afiliacja autorów: Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie ; K. Szumielewicz - brak afiliacji AGH

Autorzy (3)

AGHWróbel Krzysztof
AGHBugaj Michał
Szumielewicz Katarzyna

Słowa kluczowe

EN: double Q learning deep Q learning award

PL: nagroda deep Q learning double Q learning

Dane bibliometryczne

ID BaDAP	156078
Data dodania do BaDAP	2024-11-15
Rok publikacji	2023
Typ publikacji	fragment książki
Otwarty dostęp
Wydawca	Wydawnictwo naukowe TYGIEL Sp. z o.o.

Streszczenie

W niniejszej publikacji prezentujemy analizę porównawczą architektur Deep Q-Learning oraz Double Q-Learning. Celem analizy jest porównanie skuteczności obu architektur oraz szczegółowa analiza ich krzywych uczących dla dynamicznych, nieliniowych i wymagających środowisk, wykorzystując jako dane wejściowe surowe piksele klatek środowiska/gry. W pracy zastosowano szereg zabiegów wstępnego przetwarzania danych – pamięć buforowa, odtwarzanie doświadczeń, ekstrakcja pikseli o maksymalnych wartościach oraz rozszerzenie wejścia sieci o poprzednie stany symulacji. Dla osiągnięcia celu analizy pracy przeprowadziliśmy sesje treningowe na wybranych środowiska Atari 2600 – Breakout, Pong, Alien oraz Zaxxon. Otrzymane wyniki wskazują na istotne różnice między przebiegami treningu dla architektur DQN i DDQN. Algorytm DDQN osiąga zauważalnie wyższe wyniki w omówionych symulacjach. W pracy omówiono również problem niestabilności uczenia się algorytmów wraz z problemem katastrofalnego zapominania. Wnioski z naszej analizy mają znaczące implikacje pozwalające na skuteczniejszy dobór architektur wraz selekcją narzędzi przetwarzania danych.

Abstract

In the following publication, we present a comparative analysis of Deep Q-Learning and Double Q-Learning architectures. The goal of the analysis is to compare the effectiveness of both architectures and provide a detailed examination of their learning curves for dynamic, nonlinear, and demanding environments, using raw pixel frames of the environment/game as input data. A series of data preprocessing techniques were used, including experience replay, pixel extraction with maximal values, and the extension of network inputs with previous simulation states. To achieve the analysis goal, we conducted training sessions on selected Atari 2600 environments – Breakout, Pong, Alien, and Zaxxon. The obtained results indicate significant differences between the training dynamics of the DQN and DDQN architectures. The DDQN algorithm achieves noticeably higher scores in the discussed simulations. In the paper, we are discussing the issue of learning instability in algorithms along with the problem of catastrophic forgetting. The conclusions from our analysis have substantial implications, enabling a more effective selection of reinforcement learning architectures along with the choice of data processing tools.

Publikacje, które mogą Cię zainteresować

fragment książki

#152050Data dodania: 6.4.2024

Analiza porównawcza skuteczności architektur Deep Q-Learning oraz Double Q-Learning w środowisku z systemem nagród — [A comparative analysis of the effectiveness of Deep Q-Learning architectures and Double Q-Learning in an environment with a reward system] / Krzysztof WRÓBEL, Michał BUGAJ, Katarzyna Szumielewicz // W: TYGIEL 2023 [Dokument elektroniczny] : „interdyscyplinarność kluczem do rozwoju” : XV interdyscyplinarna konferencja naukowa : 23-26 marca 2023 r., [Lublin] : abstrakty / red. Paulina Pomajda, Alicja Danielewska. — Wersja do Windows. — Dane tekstowe. — Lublin : Fundacja na rzecz promocji nauki i rozwoju TYGIEL, 2023. — e-ISBN: 978-83-67670-09-8. — S. 159-160. — Wymagania systemowe: Adobe Reader. — Tryb dostępu: https://s.agh.edu.pl/MEDMv [2024-02-16]

Szczegóły

fragment książki

#154049Data dodania: 1.7.2024

Analiza rozwiązań technologicznych produkcji metalowych okuć drzwiowych pod kątem wyrobów z powierzchniami przeciwdrobnoustrojowymi — Analysis of technological solutions for the production of metal door fittings in terms of products with antimicrobial surfaces / Monika WALKOWICZ // W: Nowe trendy i perspektywy w rozwoju nauk inżynieryjno-technicznych [Dokument elektroniczny], T. 2 / Red. Kamil Maciąg, Maciej Świtalski. — Wersja do Windows. — Dane tekstowe. — Lublin : Wydawnictwo Naukowe TYGIEL sp. z o. o., 2024. — e-ISBN: 978-83-67881-38-8. — S. 55–64. — Wymagania systemowe: Adobe Reader. — Tryb dostępu: https://s.agh.edu.pl/4wGvP [2024-07-01]. — Bibliogr. s. 63–64, Streszcz., Abstr.

Szczegóły