Szczegóły publikacji
Opis bibliograficzny
Analiza porównawcza skuteczności architektur Deep Q-Learning oraz Double Q-Learning w środowisku z systemem nagród — Performance comparison analysis of Deep Q-Learning and Double Q-Learning architectures in a reward-based environment / Krzysztof WRÓBEL, Michał BUGAJ, Katarzyna Szumielewicz // W: Nowe trendy i perspektywy w rozwoju nauk inżynieryjno-technicznych [Dokument elektroniczny], T. 1 / red. Izabela Mołdoch-Mendoń, Monika Maciąg. — Wersja do Windows. — Dane tekstowe. — Lublin : Wydawnictwo Naukowe TYGIEL sp. z o. o., 2023. — e-ISBN: 978-83-67881-29-6. — S. 47–65. — Wymagania systemowe: Adobe Reader. — Tryb dostępu: https://s.agh.edu.pl/eygZ8 [2024-10-16]. — Bibliogr. s. 63–64, Streszcz., Abstr. — Afiliacja autorów: Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie ; K. Szumielewicz - brak afiliacji AGH
Autorzy (3)
- AGHWróbel Krzysztof
- AGHBugaj Michał
- Szumielewicz Katarzyna
Słowa kluczowe
Dane bibliometryczne
| ID BaDAP | 156078 |
|---|---|
| Data dodania do BaDAP | 2024-11-15 |
| Rok publikacji | 2023 |
| Typ publikacji | fragment książki |
| Otwarty dostęp | |
| Wydawca | Wydawnictwo naukowe TYGIEL Sp. z o.o. |
Abstract
In the following publication, we present a comparative analysis of Deep Q-Learning and Double Q-Learning architectures. The goal of the analysis is to compare the effectiveness of both architectures and provide a detailed examination of their learning curves for dynamic, nonlinear, and demanding environments, using raw pixel frames of the environment/game as input data. A series of data preprocessing techniques were used, including experience replay, pixel extraction with maximal values, and the extension of network inputs with previous simulation states. To achieve the analysis goal, we conducted training sessions on selected Atari 2600 environments – Breakout, Pong, Alien, and Zaxxon. The obtained results indicate significant differences between the training dynamics of the DQN and DDQN architectures. The DDQN algorithm achieves noticeably higher scores in the discussed simulations. In the paper, we are discussing the issue of learning instability in algorithms along with the problem of catastrophic forgetting. The conclusions from our analysis have substantial implications, enabling a more effective selection of reinforcement learning architectures along with the choice of data processing tools.
Streszczenie
W niniejszej publikacji prezentujemy analizę porównawczą architektur Deep Q-Learning oraz Double Q-Learning. Celem analizy jest porównanie skuteczności obu architektur oraz szczegółowa analiza ich krzywych uczących dla dynamicznych, nieliniowych i wymagających środowisk, wykorzystując jako dane wejściowe surowe piksele klatek środowiska/gry. W pracy zastosowano szereg zabiegów wstępnego przetwarzania danych – pamięć buforowa, odtwarzanie doświadczeń, ekstrakcja pikseli o maksymalnych wartościach oraz rozszerzenie wejścia sieci o poprzednie stany symulacji. Dla osiągnięcia celu analizy pracy przeprowadziliśmy sesje treningowe na wybranych środowiska Atari 2600 – Breakout, Pong, Alien oraz Zaxxon. Otrzymane wyniki wskazują na istotne różnice między przebiegami treningu dla architektur DQN i DDQN. Algorytm DDQN osiąga zauważalnie wyższe wyniki w omówionych symulacjach. W pracy omówiono również problem niestabilności uczenia się algorytmów wraz z problemem katastrofalnego zapominania. Wnioski z naszej analizy mają znaczące implikacje pozwalające na skuteczniejszy dobór architektur wraz selekcją narzędzi przetwarzania danych.