Deep Reinforcement Learning Das umfassende Praxis-Handbuch. Moderne Algorithmen für Chatbots, Robotik, diskrete Optimierung und Web-Automatisierung inkl. Multiagenten-Methoden.
Autor principal: | |
---|---|
Formato: | Electrónico eBook |
Idioma: | Alemán |
Publicado: |
Frechen :
Mitp,
2020.
|
Colección: | Mitp Professional.
|
Acceso en línea: | Texto completo (Requiere registro previo con correo institucional) |
Tabla de Contenidos:
- Cover
- Titel
- Impressum
- Inhaltsverzeichnis
- Über den Autor
- Über die Korrektoren
- Über den Fachkorrektor der deutschen Ausgabe
- Einleitung
- Teil I: Grundlagen des Reinforcement Learnings
- Kapitel 1: Was ist Reinforcement Learning?
- 1.1 Überwachtes Lernen
- 1.2 Unüberwachtes Lernen
- 1.3 Reinforcement Learning
- 1.4 Herausforderungen beim Reinforcement Learning
- 1.5 RL-Formalismen
- 1.5.1 Belohnung
- 1.5.2 Der Agent
- 1.5.3 Die Umgebung
- 1.5.4 Aktionen
- 1.5.5 Beobachtungen
- 1.6 Die theoretischen Grundlagen des Reinforcement Learnings
- 1.6.1 Markov-Entscheidungsprozesse
- 1.6.2 Markov-Prozess
- 1.6.3 Markov-Belohnungsprozess
- 1.6.4 Aktionen hinzufügen
- 1.6.5 Policy
- 1.7 Zusammenfassung
- Kapitel 2: OpenAI Gym
- 2.1 Aufbau des Agenten
- 2.2 Anforderungen an Hard- und Software
- 2.3 OpenAI-Gym-API
- 2.3.1 Aktionsraum
- 2.3.2 Beobachtungsraum
- 2.3.3 Die Umgebung
- 2.3.4 Erzeugen der Umgebung
- 2.3.5 Die CartPole-Sitzung
- 2.4 Ein CartPole-Agent nach dem Zufallsprinzip
- 2.5 Zusätzliche Gym-Funktionalität: Wrapper und Monitor
- 2.5.1 Wrapper
- 2.5.2 Monitor
- 2.6 Zusammenfassung
- Kapitel 3: Deep Learning mit PyTorch
- 3.1 Tensoren
- 3.1.1 Tensoren erzeugen
- 3.1.2 Skalare Tensoren
- 3.1.3 Tensor-Operationen
- 3.1.4 GPU-Tensoren
- 3.2 Gradienten
- 3.2.1 Tensoren und Gradienten
- 3.3 NN-Bausteine
- 3.4 Benutzerdefinierte Schichten
- 3.5 Verlustfunktionen und Optimierer
- 3.5.1 Verlustfunktionen
- 3.5.2 Optimierer
- 3.6 Monitoring mit TensorBoard
- 3.6.1 Einführung in TensorBoard
- 3.6.2 Plotten
- 3.7 Beispiel: GAN für Bilder von Atari-Spielen
- 3.8 PyTorch Ignite
- 3.8.1 Konzepte
- 3.9 Zusammenfassung
- Kapitel 4: Das Kreuzentropie-Verfahren
- 4.1 Klassifikation von RL-Verfahren
- 4.2 Kreuzentropie in der Praxis
- 4.3 Kreuzentropie beim CartPole
- 4.4 Kreuzentropie beim FrozenLake
- 4.5 Theoretische Grundlagen des Kreuzentropie-Verfahrens
- 4.6 Zusammenfassung
- Teil II: Wertebasierte Verfahren
- Kapitel 5: Tabular Learning und das Bellman'sche Optimalitätsprinzip
- 5.1 Wert, Zustand und Optimalität
- 5.2 Das Bellman'sche Optimalitätsprinzip
- 5.3 Aktionswert
- 5.4 Wertiteration
- 5.5 Wertiteration in der Praxis
- 5.6 Q-Learning in der FrozenLake-Umgebung
- 5.7 Zusammenfassung
- Kapitel 6: Deep Q-Networks
- 6.1 Wertiteration in der Praxis
- 6.2 Tabular Q-Learning
- 6.3 Deep Q-Learning
- 6.3.1 Interaktion mit der Umgebung
- 6.3.2 SGD-Optimierung
- 6.3.3 Korrelation der Schritte
- 6.3.4 Die Markov-Eigenschaft
- 6.3.5 Die endgültige Form des DQN-Trainings
- 6.4 DQN mit Pong
- 6.4.1 Wrapper
- 6.4.2 DQN-Modell
- 6.4.3 Training
- 6.4.4 Ausführung und Leistung
- 6.4.5 Das Modell in Aktion
- 6.5 Weitere Möglichkeiten
- 6.6 Zusammenfassung
- Kapitel 7: Allgemeine RL-Bibliotheken
- 7.1 Warum RL-Bibliotheken?
- 7.2 Die PTAN-Bibliothek
- 7.2.1 Aktionsselektoren
- 7.2.2 Der Agent