Cargando…

Deep Reinforcement Learning Das umfassende Praxis-Handbuch. Moderne Algorithmen für Chatbots, Robotik, diskrete Optimierung und Web-Automatisierung inkl. Multiagenten-Methoden.

Detalles Bibliográficos
Autor principal: Lapan, Maxim
Formato: Electrónico eBook
Idioma:Alemán
Publicado: Frechen : Mitp, 2020.
Colección:Mitp Professional.
Acceso en línea:Texto completo (Requiere registro previo con correo institucional)
Tabla de Contenidos:
  • Cover
  • Titel
  • Impressum
  • Inhaltsverzeichnis
  • Über den Autor
  • Über die Korrektoren
  • Über den Fachkorrektor der deutschen Ausgabe
  • Einleitung
  • Teil I: Grundlagen des Reinforcement Learnings
  • Kapitel 1: Was ist Reinforcement Learning?
  • 1.1 Überwachtes Lernen
  • 1.2 Unüberwachtes Lernen
  • 1.3 Reinforcement Learning
  • 1.4 Herausforderungen beim Reinforcement Learning
  • 1.5 RL-Formalismen
  • 1.5.1 Belohnung
  • 1.5.2 Der Agent
  • 1.5.3 Die Umgebung
  • 1.5.4 Aktionen
  • 1.5.5 Beobachtungen
  • 1.6 Die theoretischen Grundlagen des Reinforcement Learnings
  • 1.6.1 Markov-Entscheidungsprozesse
  • 1.6.2 Markov-Prozess
  • 1.6.3 Markov-Belohnungsprozess
  • 1.6.4 Aktionen hinzufügen
  • 1.6.5 Policy
  • 1.7 Zusammenfassung
  • Kapitel 2: OpenAI Gym
  • 2.1 Aufbau des Agenten
  • 2.2 Anforderungen an Hard- und Software
  • 2.3 OpenAI-Gym-API
  • 2.3.1 Aktionsraum
  • 2.3.2 Beobachtungsraum
  • 2.3.3 Die Umgebung
  • 2.3.4 Erzeugen der Umgebung
  • 2.3.5 Die CartPole-Sitzung
  • 2.4 Ein CartPole-Agent nach dem Zufallsprinzip
  • 2.5 Zusätzliche Gym-Funktionalität: Wrapper und Monitor
  • 2.5.1 Wrapper
  • 2.5.2 Monitor
  • 2.6 Zusammenfassung
  • Kapitel 3: Deep Learning mit PyTorch
  • 3.1 Tensoren
  • 3.1.1 Tensoren erzeugen
  • 3.1.2 Skalare Tensoren
  • 3.1.3 Tensor-Operationen
  • 3.1.4 GPU-Tensoren
  • 3.2 Gradienten
  • 3.2.1 Tensoren und Gradienten
  • 3.3 NN-Bausteine
  • 3.4 Benutzerdefinierte Schichten
  • 3.5 Verlustfunktionen und Optimierer
  • 3.5.1 Verlustfunktionen
  • 3.5.2 Optimierer
  • 3.6 Monitoring mit TensorBoard
  • 3.6.1 Einführung in TensorBoard
  • 3.6.2 Plotten
  • 3.7 Beispiel: GAN für Bilder von Atari-Spielen
  • 3.8 PyTorch Ignite
  • 3.8.1 Konzepte
  • 3.9 Zusammenfassung
  • Kapitel 4: Das Kreuzentropie-Verfahren
  • 4.1 Klassifikation von RL-Verfahren
  • 4.2 Kreuzentropie in der Praxis
  • 4.3 Kreuzentropie beim CartPole
  • 4.4 Kreuzentropie beim FrozenLake
  • 4.5 Theoretische Grundlagen des Kreuzentropie-Verfahrens
  • 4.6 Zusammenfassung
  • Teil II: Wertebasierte Verfahren
  • Kapitel 5: Tabular Learning und das Bellman'sche Optimalitätsprinzip
  • 5.1 Wert, Zustand und Optimalität
  • 5.2 Das Bellman'sche Optimalitätsprinzip
  • 5.3 Aktionswert
  • 5.4 Wertiteration
  • 5.5 Wertiteration in der Praxis
  • 5.6 Q-Learning in der FrozenLake-Umgebung
  • 5.7 Zusammenfassung
  • Kapitel 6: Deep Q-Networks
  • 6.1 Wertiteration in der Praxis
  • 6.2 Tabular Q-Learning
  • 6.3 Deep Q-Learning
  • 6.3.1 Interaktion mit der Umgebung
  • 6.3.2 SGD-Optimierung
  • 6.3.3 Korrelation der Schritte
  • 6.3.4 Die Markov-Eigenschaft
  • 6.3.5 Die endgültige Form des DQN-Trainings
  • 6.4 DQN mit Pong
  • 6.4.1 Wrapper
  • 6.4.2 DQN-Modell
  • 6.4.3 Training
  • 6.4.4 Ausführung und Leistung
  • 6.4.5 Das Modell in Aktion
  • 6.5 Weitere Möglichkeiten
  • 6.6 Zusammenfassung
  • Kapitel 7: Allgemeine RL-Bibliotheken
  • 7.1 Warum RL-Bibliotheken?
  • 7.2 Die PTAN-Bibliothek
  • 7.2.1 Aktionsselektoren
  • 7.2.2 Der Agent