2. Merge

4339e5ca · Nour · a45ef66c · 4339e5ca · 4339e5ca · 4339e5ca
Commit 4339e5ca authored 2 years ago by Nour
--- a/backend/__pycache__/agent.cpython-311.pyc
+++ b/backend/__pycache__/agent.cpython-311.pyc
--- a/backend/__pycache__/environment.cpython-311.pyc
+++ b/backend/__pycache__/environment.cpython-311.pyc
--- a/backend/__pycache__/eventlog.cpython-311.pyc
+++ b/backend/__pycache__/eventlog.cpython-311.pyc
--- a/backend/__pycache__/simplesimmodel.cpython-311.pyc
+++ b/backend/__pycache__/simplesimmodel.cpython-311.pyc
--- a/backend/agent.py
+++ b/backend/agent.py
@@ -52,7 +52,7 @@ def q_learning(space, activities):
    mean_reward = 0
    # Train the agent using Q-learning
-    num_episodes = 100
+    num_episodes = 1000
    for episode in range(num_episodes):
        state, _ = env.reset()
        state = env.flatten_observation_to_int(state)
@@ -77,7 +77,12 @@ def q_learning(space, activities):
            old_state = state
            state = next_state
-            # comment
+            """
+            if old_state != state: 
+                print(state)
+                print(action)
+                print(Q[state][action])
+            """
        time = env.process.env.now - start 
@@ -85,10 +90,19 @@ def q_learning(space, activities):
        mean_reward += reward
-        """
        if (episode % 20 == 19):
+            mean_reward /= 20
            mean_time /= 20 
-            print(f"Episode {episode-19} to episode {episode}: mean time = {mean_time}")
+            print(f"Episode {episode-19} to episode {episode}: mean time = {mean_time}, mean reward: {mean_reward}")
-        """
+        if episode == 19:
+            start_reward = mean_reward
+        # print(f"Episode {episode}: time = {time}, reward = {reward}")
+        if episode == 999:
+            end_reward = mean_reward
+            improvement = end_reward - start_reward
+            print(f"Reward improved by {improvement}")
-        print(f"Episode {episode}: time = {time}")
+    return Q
\ No newline at end of file