|
|
|
|
LEADER |
00000cam a2200000Mi 4500 |
001 |
OR_on1164492890 |
003 |
OCoLC |
005 |
20231017213018.0 |
006 |
m o d |
007 |
cr ||||||||||| |
008 |
200711s2020 xx o 000 0 ger d |
040 |
|
|
|a EBLCP
|b eng
|c EBLCP
|d YDX
|d OCLCQ
|
019 |
|
|
|a 1163945017
|
020 |
|
|
|a 9783747500385
|
020 |
|
|
|a 3747500382
|
029 |
1 |
|
|a AU@
|b 000071521908
|
035 |
|
|
|a (OCoLC)1164492890
|z (OCoLC)1163945017
|
082 |
0 |
4 |
|a 006.31
|q OCoLC
|2 23/ger/20230216
|
049 |
|
|
|a UAMI
|
100 |
1 |
|
|a Lapan, Maxim.
|
245 |
1 |
0 |
|a Deep Reinforcement Learning
|h [electronic resource] :
|b Das umfassende Praxis-Handbuch. Moderne Algorithmen für Chatbots, Robotik, diskrete Optimierung und Web-Automatisierung inkl. Multiagenten-Methoden.
|
260 |
|
|
|a Frechen :
|b Mitp,
|c 2020.
|
300 |
|
|
|a 1 online resource (770 pages)
|
336 |
|
|
|a text
|b txt
|2 rdacontent
|
337 |
|
|
|a computer
|b c
|2 rdamedia
|
338 |
|
|
|a online resource
|b cr
|2 rdacarrier
|
490 |
1 |
|
|a Mitp Professional
|
588 |
0 |
|
|a Print version record.
|
505 |
0 |
|
|a Cover -- Titel -- Impressum -- Inhaltsverzeichnis -- Über den Autor -- Über die Korrektoren -- Über den Fachkorrektor der deutschen Ausgabe -- Einleitung -- Teil I: Grundlagen des Reinforcement Learnings -- Kapitel 1: Was ist Reinforcement Learning? -- 1.1 Überwachtes Lernen -- 1.2 Unüberwachtes Lernen -- 1.3 Reinforcement Learning -- 1.4 Herausforderungen beim Reinforcement Learning -- 1.5 RL-Formalismen -- 1.5.1 Belohnung -- 1.5.2 Der Agent -- 1.5.3 Die Umgebung -- 1.5.4 Aktionen -- 1.5.5 Beobachtungen -- 1.6 Die theoretischen Grundlagen des Reinforcement Learnings
|
505 |
8 |
|
|a 1.6.1 Markov-Entscheidungsprozesse -- 1.6.2 Markov-Prozess -- 1.6.3 Markov-Belohnungsprozess -- 1.6.4 Aktionen hinzufügen -- 1.6.5 Policy -- 1.7 Zusammenfassung -- Kapitel 2: OpenAI Gym -- 2.1 Aufbau des Agenten -- 2.2 Anforderungen an Hard- und Software -- 2.3 OpenAI-Gym-API -- 2.3.1 Aktionsraum -- 2.3.2 Beobachtungsraum -- 2.3.3 Die Umgebung -- 2.3.4 Erzeugen der Umgebung -- 2.3.5 Die CartPole-Sitzung -- 2.4 Ein CartPole-Agent nach dem Zufallsprinzip -- 2.5 Zusätzliche Gym-Funktionalität: Wrapper und Monitor -- 2.5.1 Wrapper -- 2.5.2 Monitor -- 2.6 Zusammenfassung
|
505 |
8 |
|
|a Kapitel 3: Deep Learning mit PyTorch -- 3.1 Tensoren -- 3.1.1 Tensoren erzeugen -- 3.1.2 Skalare Tensoren -- 3.1.3 Tensor-Operationen -- 3.1.4 GPU-Tensoren -- 3.2 Gradienten -- 3.2.1 Tensoren und Gradienten -- 3.3 NN-Bausteine -- 3.4 Benutzerdefinierte Schichten -- 3.5 Verlustfunktionen und Optimierer -- 3.5.1 Verlustfunktionen -- 3.5.2 Optimierer -- 3.6 Monitoring mit TensorBoard -- 3.6.1 Einführung in TensorBoard -- 3.6.2 Plotten -- 3.7 Beispiel: GAN für Bilder von Atari-Spielen -- 3.8 PyTorch Ignite -- 3.8.1 Konzepte -- 3.9 Zusammenfassung -- Kapitel 4: Das Kreuzentropie-Verfahren
|
505 |
8 |
|
|a 4.1 Klassifikation von RL-Verfahren -- 4.2 Kreuzentropie in der Praxis -- 4.3 Kreuzentropie beim CartPole -- 4.4 Kreuzentropie beim FrozenLake -- 4.5 Theoretische Grundlagen des Kreuzentropie-Verfahrens -- 4.6 Zusammenfassung -- Teil II: Wertebasierte Verfahren -- Kapitel 5: Tabular Learning und das Bellman'sche Optimalitätsprinzip -- 5.1 Wert, Zustand und Optimalität -- 5.2 Das Bellman'sche Optimalitätsprinzip -- 5.3 Aktionswert -- 5.4 Wertiteration -- 5.5 Wertiteration in der Praxis -- 5.6 Q-Learning in der FrozenLake-Umgebung -- 5.7 Zusammenfassung -- Kapitel 6: Deep Q-Networks
|
505 |
8 |
|
|a 6.1 Wertiteration in der Praxis -- 6.2 Tabular Q-Learning -- 6.3 Deep Q-Learning -- 6.3.1 Interaktion mit der Umgebung -- 6.3.2 SGD-Optimierung -- 6.3.3 Korrelation der Schritte -- 6.3.4 Die Markov-Eigenschaft -- 6.3.5 Die endgültige Form des DQN-Trainings -- 6.4 DQN mit Pong -- 6.4.1 Wrapper -- 6.4.2 DQN-Modell -- 6.4.3 Training -- 6.4.4 Ausführung und Leistung -- 6.4.5 Das Modell in Aktion -- 6.5 Weitere Möglichkeiten -- 6.6 Zusammenfassung -- Kapitel 7: Allgemeine RL-Bibliotheken -- 7.1 Warum RL-Bibliotheken? -- 7.2 Die PTAN-Bibliothek -- 7.2.1 Aktionsselektoren -- 7.2.2 Der Agent
|
500 |
|
|
|a 7.2.3 Quelle der Erfahrungswerte
|
590 |
|
|
|a O'Reilly
|b O'Reilly Online Learning: Academic/Public Library Edition
|
776 |
0 |
8 |
|i Print version:
|a Lapan, Maxim
|t Deep Reinforcement Learning : Das umfassende Praxis-Handbuch. Moderne Algorithmen für Chatbots, Robotik, diskrete Optimierung und Web-Automatisierung inkl. Multiagenten-Methoden
|d Frechen : mitp,c2020
|z 9783747500361
|
830 |
|
0 |
|a Mitp Professional.
|
856 |
4 |
0 |
|u https://learning.oreilly.com/library/view/~/9783747500385/?ar
|z Texto completo (Requiere registro previo con correo institucional)
|
938 |
|
|
|a YBP Library Services
|b YANK
|n 16832858
|
994 |
|
|
|a 92
|b IZTAP
|