Cargando…

Deep Reinforcement Learning Das umfassende Praxis-Handbuch. Moderne Algorithmen für Chatbots, Robotik, diskrete Optimierung und Web-Automatisierung inkl. Multiagenten-Methoden.

Detalles Bibliográficos
Autor principal: Lapan, Maxim
Formato: Electrónico eBook
Idioma:Alemán
Publicado: Frechen : Mitp, 2020.
Colección:Mitp Professional.
Acceso en línea:Texto completo (Requiere registro previo con correo institucional)

MARC

LEADER 00000cam a2200000Mi 4500
001 OR_on1164492890
003 OCoLC
005 20231017213018.0
006 m o d
007 cr |||||||||||
008 200711s2020 xx o 000 0 ger d
040 |a EBLCP  |b eng  |c EBLCP  |d YDX  |d OCLCQ 
019 |a 1163945017 
020 |a 9783747500385 
020 |a 3747500382 
029 1 |a AU@  |b 000071521908 
035 |a (OCoLC)1164492890  |z (OCoLC)1163945017 
082 0 4 |a 006.31  |q OCoLC  |2 23/ger/20230216 
049 |a UAMI 
100 1 |a Lapan, Maxim. 
245 1 0 |a Deep Reinforcement Learning  |h [electronic resource] :  |b Das umfassende Praxis-Handbuch. Moderne Algorithmen für Chatbots, Robotik, diskrete Optimierung und Web-Automatisierung inkl. Multiagenten-Methoden. 
260 |a Frechen :  |b Mitp,  |c 2020. 
300 |a 1 online resource (770 pages) 
336 |a text  |b txt  |2 rdacontent 
337 |a computer  |b c  |2 rdamedia 
338 |a online resource  |b cr  |2 rdacarrier 
490 1 |a Mitp Professional 
588 0 |a Print version record. 
505 0 |a Cover -- Titel -- Impressum -- Inhaltsverzeichnis -- Über den Autor -- Über die Korrektoren -- Über den Fachkorrektor der deutschen Ausgabe -- Einleitung -- Teil I: Grundlagen des Reinforcement Learnings -- Kapitel 1: Was ist Reinforcement Learning? -- 1.1 Überwachtes Lernen -- 1.2 Unüberwachtes Lernen -- 1.3 Reinforcement Learning -- 1.4 Herausforderungen beim Reinforcement Learning -- 1.5 RL-Formalismen -- 1.5.1 Belohnung -- 1.5.2 Der Agent -- 1.5.3 Die Umgebung -- 1.5.4 Aktionen -- 1.5.5 Beobachtungen -- 1.6 Die theoretischen Grundlagen des Reinforcement Learnings 
505 8 |a 1.6.1 Markov-Entscheidungsprozesse -- 1.6.2 Markov-Prozess -- 1.6.3 Markov-Belohnungsprozess -- 1.6.4 Aktionen hinzufügen -- 1.6.5 Policy -- 1.7 Zusammenfassung -- Kapitel 2: OpenAI Gym -- 2.1 Aufbau des Agenten -- 2.2 Anforderungen an Hard- und Software -- 2.3 OpenAI-Gym-API -- 2.3.1 Aktionsraum -- 2.3.2 Beobachtungsraum -- 2.3.3 Die Umgebung -- 2.3.4 Erzeugen der Umgebung -- 2.3.5 Die CartPole-Sitzung -- 2.4 Ein CartPole-Agent nach dem Zufallsprinzip -- 2.5 Zusätzliche Gym-Funktionalität: Wrapper und Monitor -- 2.5.1 Wrapper -- 2.5.2 Monitor -- 2.6 Zusammenfassung 
505 8 |a Kapitel 3: Deep Learning mit PyTorch -- 3.1 Tensoren -- 3.1.1 Tensoren erzeugen -- 3.1.2 Skalare Tensoren -- 3.1.3 Tensor-Operationen -- 3.1.4 GPU-Tensoren -- 3.2 Gradienten -- 3.2.1 Tensoren und Gradienten -- 3.3 NN-Bausteine -- 3.4 Benutzerdefinierte Schichten -- 3.5 Verlustfunktionen und Optimierer -- 3.5.1 Verlustfunktionen -- 3.5.2 Optimierer -- 3.6 Monitoring mit TensorBoard -- 3.6.1 Einführung in TensorBoard -- 3.6.2 Plotten -- 3.7 Beispiel: GAN für Bilder von Atari-Spielen -- 3.8 PyTorch Ignite -- 3.8.1 Konzepte -- 3.9 Zusammenfassung -- Kapitel 4: Das Kreuzentropie-Verfahren 
505 8 |a 4.1 Klassifikation von RL-Verfahren -- 4.2 Kreuzentropie in der Praxis -- 4.3 Kreuzentropie beim CartPole -- 4.4 Kreuzentropie beim FrozenLake -- 4.5 Theoretische Grundlagen des Kreuzentropie-Verfahrens -- 4.6 Zusammenfassung -- Teil II: Wertebasierte Verfahren -- Kapitel 5: Tabular Learning und das Bellman'sche Optimalitätsprinzip -- 5.1 Wert, Zustand und Optimalität -- 5.2 Das Bellman'sche Optimalitätsprinzip -- 5.3 Aktionswert -- 5.4 Wertiteration -- 5.5 Wertiteration in der Praxis -- 5.6 Q-Learning in der FrozenLake-Umgebung -- 5.7 Zusammenfassung -- Kapitel 6: Deep Q-Networks 
505 8 |a 6.1 Wertiteration in der Praxis -- 6.2 Tabular Q-Learning -- 6.3 Deep Q-Learning -- 6.3.1 Interaktion mit der Umgebung -- 6.3.2 SGD-Optimierung -- 6.3.3 Korrelation der Schritte -- 6.3.4 Die Markov-Eigenschaft -- 6.3.5 Die endgültige Form des DQN-Trainings -- 6.4 DQN mit Pong -- 6.4.1 Wrapper -- 6.4.2 DQN-Modell -- 6.4.3 Training -- 6.4.4 Ausführung und Leistung -- 6.4.5 Das Modell in Aktion -- 6.5 Weitere Möglichkeiten -- 6.6 Zusammenfassung -- Kapitel 7: Allgemeine RL-Bibliotheken -- 7.1 Warum RL-Bibliotheken? -- 7.2 Die PTAN-Bibliothek -- 7.2.1 Aktionsselektoren -- 7.2.2 Der Agent 
500 |a 7.2.3 Quelle der Erfahrungswerte 
590 |a O'Reilly  |b O'Reilly Online Learning: Academic/Public Library Edition 
776 0 8 |i Print version:  |a Lapan, Maxim  |t Deep Reinforcement Learning : Das umfassende Praxis-Handbuch. Moderne Algorithmen für Chatbots, Robotik, diskrete Optimierung und Web-Automatisierung inkl. Multiagenten-Methoden  |d Frechen : mitp,c2020  |z 9783747500361 
830 0 |a Mitp Professional. 
856 4 0 |u https://learning.oreilly.com/library/view/~/9783747500385/?ar  |z Texto completo (Requiere registro previo con correo institucional) 
938 |a YBP Library Services  |b YANK  |n 16832858 
994 |a 92  |b IZTAP