Was verursachte den großen Unterschied in der Ausführungszeit zwischen diesen beiden Vorwärtspässen? - Programmiererforum

Was verursachte den großen Unterschied in der Ausführungszeit zwischen diesen beiden Vorwärtspässen? ⇐ C++

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Was verursachte den großen Unterschied in der Ausführungszeit zwischen diesen beiden Vorwärtspässen?

Post by Anonymous » 17 Jan 2025, 09:12

Code: Select all

for i in range(263):
states = torch.rand(128, 4, 20, 20, device = device)
# time.sleep(1)
start_time = time.time()
policy, value, action_value = model(states)
end_time = time.time()
total_time = end_time - start_time
print(f"time cost：{total_time:.4f} second")

es wird gedruckt als:

Code: Select all

time cost：0.0003 second
time cost：0.0003 second
time cost：0.0003 second
...

Aber wenn ich time.sleep(1) auskommentiere, wird es langsam:

Code: Select all

time cost：0.0008 second
time cost：0.0009 second
time cost：0.0009 second

In meinem C++-Programm mit libtorch, das mehr als 200 Zeilen hat, also schreibe ich es hier nicht auf, ist der Unterschied noch größer

Code: Select all

std::shared_ptr results_tensor = std::make_shared();
std::shared_ptr model;
while(true)
{
auto start = std::chrono::high_resolution_clock::now();

*results_tensor = nn.model->forward({input});

auto end = std::chrono::high_resolution_clock::now();
std::chrono::duration duration = end - start;
{
std::lock_guard lock(cout_mutex);
std::cout forward(x);

return std::make_tuple(policy, value, action_values);
}
};

int main() {
// Initialize the network
Net net;

net.to(torch::kCUDA);

// Create a random input tensor (batch size 1, 4 channels, 20x20 size)
at::Tensor input_tensor = torch::rand({128, 4, 20, 20}, torch::kCUDA);

// Pass the network through the input data and get the output
for(int i = 0; i < 10; i++)
{
std::this_thread::sleep_for(std::chrono::seconds(60)); // pretend some calculations are being performed
// forward pass I
{
auto cpu_start = std::chrono::high_resolution_clock::now();

cudaEvent_t start, stop;
cudaEventCreate(&start);
cudaEventCreate(&stop);

cudaEventRecord(start, 0);  // Start timing

auto output = net.forward(input_tensor);

cudaEventRecord(stop, 0);  // End timing

cudaEventSynchronize(stop);  // Wait for GPU to finish all operations
float elapsedTime;
cudaEventElapsedTime(&elapsedTime, start, stop);  // Calculate time

std::cout

1737101550

Anonymous

[code]for i in range(263):
states = torch.rand(128, 4, 20, 20, device = device)
# time.sleep(1)
start_time = time.time()
policy, value, action_value = model(states)
end_time = time.time()
total_time = end_time - start_time
print(f"time cost：{total_time:.4f} second")
[/code]
es wird gedruckt als:
[code]time cost：0.0003 second
time cost：0.0003 second
time cost：0.0003 second
...
[/code]
Aber wenn ich time.sleep(1) auskommentiere, wird es langsam:
[code]time cost：0.0008 second
time cost：0.0009 second
time cost：0.0009 second
[/code]
In meinem C++-Programm mit libtorch, das mehr als 200 Zeilen hat, also schreibe ich es hier nicht auf, ist der Unterschied noch größer
[code]std::shared_ptr results_tensor = std::make_shared();
std::shared_ptr model;
while(true)
{
auto start = std::chrono::high_resolution_clock::now();

*results_tensor = nn.model->forward({input});

auto end = std::chrono::high_resolution_clock::now();
std::chrono::duration duration = end - start;
{
std::lock_guard lock(cout_mutex);
std::cout forward(x);

return std::make_tuple(policy, value, action_values);
}
};

int main() {
// Initialize the network
Net net;

net.to(torch::kCUDA);

// Create a random input tensor (batch size 1, 4 channels, 20x20 size)
at::Tensor input_tensor = torch::rand({128, 4, 20, 20}, torch::kCUDA);

// Pass the network through the input data and get the output
for(int i = 0; i < 10; i++)
{
std::this_thread::sleep_for(std::chrono::seconds(60)); // pretend some calculations are being performed
// forward pass I
{
auto cpu_start = std::chrono::high_resolution_clock::now();

cudaEvent_t start, stop;
cudaEventCreate(&start);
cudaEventCreate(&stop);

cudaEventRecord(start, 0);  // Start timing

auto output = net.forward(input_tensor);

cudaEventRecord(stop, 0);  // End timing

cudaEventSynchronize(stop);  // Wait for GPU to finish all operations
float elapsedTime;
cudaEventElapsedTime(&elapsedTime, start, stop);  // Calculate time

std::cout

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Was verursachte den großen Unterschied in der Ausführungszeit zwischen diesen beiden Vorwärtspässen?

Last post by Guest « 16 Jan 2025, 10:28
Posted in C++

by Guest » 16 Jan 2025, 10:28 » in C++

for i in range(263):
states = torch.rand(128, 4, 20, 20, device = device)
# time.sleep(1)
start_time = time.time()
policy, value, action_value = model(states)
end_time = time.time()
total_time =...

0 Replies

18 Views

Last post by Guest
16 Jan 2025, 10:28
Was verursachte den großen Unterschied in der Ausführungszeit zwischen diesen beiden Vorwärtspässen?

Last post by Guest « 17 Jan 2025, 09:12
Posted in Python

by Guest » 17 Jan 2025, 09:12 » in Python

for i in range(263):
states = torch.rand(128, 4, 20, 20, device = device)
# time.sleep(1)
start_time = time.time()
policy, value, action_value = model(states)
end_time = time.time()
total_time =...

0 Replies

16 Views

Last post by Guest
17 Jan 2025, 09:12
Was ist der Unterschied zwischen diesen beiden Linien, MSC V.1900 64 Bit (AMD64) und MSC V.1914 32 Bit (Intel)

Last post by Anonymous « 24 Feb 2025, 12:24
Posted in Python

by Anonymous » 24 Feb 2025, 12:24 » in Python

(base) C:\Users\Abj>python
Python 3.6.5 |Anaconda, Inc.| (default, Mar 29 2018, 13:32:41) on win32
Type help , copyright , credits or license for more information.
>>> exit()

(base) C:\Users\Abj>py...

0 Replies

15 Views

Last post by Anonymous
24 Feb 2025, 12:24
Ist die Systemintegration mithilfe von Nachrichten zwischen diesen beiden Systemen (und möglicherweise anderen) übertrie

Last post by Guest « 19 Jan 2025, 20:54
Posted in C#

by Guest » 19 Jan 2025, 20:54 » in C#

Bei der Arbeit haben wir ein benutzerdefiniertes Legacy-CRM-System (im folgenden Text als LS bezeichnet), das vom Unternehmen verwendet wird. LS wird auch zum Speichern einiger Kundenzahlungen...

0 Replies

17 Views

Last post by Guest
19 Jan 2025, 20:54
Die Ausführungszeit von PHP-Terminalskripten unterscheidet sich zwischen dem ersten und den nachfolgenden Aufrufen [gesc

Last post by Anonymous « 23 Dec 2024, 11:35
Posted in Php

by Anonymous » 23 Dec 2024, 11:35 » in Php

Ich habe ein PHP-Testskript, das mehrere Aufrufe an eine String-Parsing- und Auswertungsfunktion durchführt, um sie in mehreren Fällen zu testen. Die Ausführungszeit jeder String-Auswertung (jedes...

0 Replies

24 Views

Last post by Anonymous
23 Dec 2024, 11:35

Return to “C++”