# Install profiler dependencies
!pip install -q torch_tb_profiler tensorboard==2.12.0 tensorboard-plugin-profile==2.11.2 tensorflow==2.12.0 protobuf==3.20.3


import torch
from torch import nn


from model import ResNet50


import torchvision
import torchvision.transforms as transforms

def get_loaders(train_bs, val_bs):

  transform_train = transforms.Compose([
      transforms.RandomCrop(32, padding=4),
      transforms.RandomHorizontalFlip(),
      transforms.GaussianBlur(3),
      transforms.ToTensor(),
      transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
  ])

  transform_test = transforms.Compose([
      transforms.ToTensor(),
      transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
  ])

  trainset = torchvision.datasets.CIFAR100(
      root='./data', train=True, download=True, transform=transform_train)
  trainloader = torch.utils.data.DataLoader(
      trainset, batch_size=train_bs, shuffle=True)

  testset = torchvision.datasets.CIFAR100(
      root='./data', train=False, download=True, transform=transform_test)
  testloader = torch.utils.data.DataLoader(
      testset, batch_size=val_bs, shuffle=False)
  
  return trainloader, testloader


from torch import optim
from tqdm.notebook import  tqdm
import sys, os
import time


start_epoch = 0
end_epoch = 2
lr = 0.1
best_acc = 0.0


criterion = nn.CrossEntropyLoss()
device = 'cuda' if torch.cuda.is_available() else 'cpu'
print("Using device", device)

Using device cuda


def train(model, optimizer, epoch, trainloader, prof=None):
    print('\nEpoch: %d' % epoch)
    model.train()
    train_loss = 0
    correct = 0
    total = 0

    with tqdm(total=len(trainloader), file=sys.stdout, ) as pbar:
      for batch_idx, (inputs, targets) in enumerate(trainloader):
          inputs, targets = inputs.to(device), targets.to(device)
          optimizer.zero_grad()
          outputs = model(inputs)
          loss = criterion(outputs, targets)
          loss.backward()
          optimizer.step()

          train_loss += loss.item()
          _, predicted = outputs.max(-1)
          total += targets.size(0)
          correct += predicted.eq(targets).sum().item()

          pbar.set_description('[%3d]/[%3d]Loss: %.3f | Acc: %.3f%% (%d/%d)'
                      % (batch_idx, len(trainloader), train_loss/(batch_idx+1), 
                          100.*correct/total, correct, total),)
          pbar.update(1)
          
          if prof is not None:
            prof.step()
            if batch_idx == 20:
              return


def test(model, optimizer, epoch, testloader):
    global best_acc
    model.eval()
    test_loss = 0
    correct = 0
    total = 0
    with torch.no_grad():
      with tqdm(total=len(testloader), file=sys.stdout) as pbar:

        for batch_idx, (inputs, targets) in enumerate(testloader):
            inputs, targets = inputs.to(device), targets.to(device)
            outputs = model(inputs)
            loss = criterion(outputs, targets)

            test_loss += loss.item()
            _, predicted = outputs.max(-1)
            total += targets.size(0)
            correct += predicted.eq(targets).sum().item()

            pbar.set_description('[%3d]/[%3d]Loss: %.3f | Acc: %.3f%% (%d/%d)'
                         % (batch_idx, len(testloader), test_loss/(batch_idx+1), 
                            100.*correct/total, correct, total),)
            pbar.update(1)

    # Save checkpoint.
    acc = 100.*correct/total
    if acc > best_acc:
        state = {
            'model': model.state_dict(),
            'acc': acc,
            'epoch': epoch,
        }
        if not os.path.isdir('checkpoint'):
            os.mkdir('checkpoint')
        torch.save(state, './checkpoint/ckpt.pth')
        best_acc = acc


trainloader, valloader = get_loaders(128, 128)
import torchvision
model = ResNet50(num_classes=100).to(device)
optimizer = optim.Adam(model.parameters(), lr=lr,weight_decay=5e-4)
scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=100)

for epoch in range(start_epoch, end_epoch):
    epoch_start_time = time.time()
    train(model, optimizer, epoch, trainloader)
    epoch_end_time = time.time()
    
    test(model, optimizer, epoch, valloader)
    scheduler.step()
    if epoch > 0:
        print("Training for one epoch takes {:.3f}s".format(epoch_end_time - epoch_start_time))

baseline_time = epoch_end_time - epoch_start_time

Files already downloaded and verified
Files already downloaded and verified

Epoch: 0

  0%|          | 0/391 [00:00<?, ?it/s]

  0%|          | 0/79 [00:00<?, ?it/s]

Epoch: 1

  0%|          | 0/391 [00:00<?, ?it/s]

  0%|          | 0/79 [00:00<?, ?it/s]

Training for one epoch takes 78.477s


trainloader, valloader = get_loaders(128, 128)

model = ResNet50(num_classes=100).to(device)
optimizer = optim.Adam(model.parameters(), lr=lr,weight_decay=5e-4)

with torch.profiler.profile(
        activities=[torch.profiler.ProfilerActivity.CPU, torch.profiler.ProfilerActivity.CUDA],
        schedule=torch.profiler.schedule(skip_first=10, wait=5, warmup=1, active=1, repeat=1),
        on_trace_ready=torch.profiler.tensorboard_trace_handler('./profile/baseline'),
        record_shapes=True,
        profile_memory=True,
        with_stack=True
) as prof:
    train(model, optimizer, 0, trainloader, prof)

Files already downloaded and verified
Files already downloaded and verified

Epoch: 0

  0%|          | 0/391 [00:00<?, ?it/s]

[W kineto_shim.cpp:343] Profiler is not initialized: skipping step() invocation
[W kineto_shim.cpp:343] Profiler is not initialized: skipping step() invocation
[W kineto_shim.cpp:343] Profiler is not initialized: skipping step() invocation
[W kineto_shim.cpp:343] Profiler is not initialized: skipping step() invocation
[W kineto_shim.cpp:343] Profiler is not initialized: skipping step() invocation
[W kineto_shim.cpp:343] Profiler is not initialized: skipping step() invocation
[W kineto_shim.cpp:343] Profiler is not initialized: skipping step() invocation
[W kineto_shim.cpp:343] Profiler is not initialized: skipping step() invocation
[W kineto_shim.cpp:343] Profiler is not initialized: skipping step() invocation
[W kineto_shim.cpp:343] Profiler is not initialized: skipping step() invocation
[W kineto_shim.cpp:343] Profiler is not initialized: skipping step() invocation
[W kineto_shim.cpp:343] Profiler is not initialized: skipping step() invocation
[W kineto_shim.cpp:343] Profiler is not initialized: skipping step() invocation
[W kineto_shim.cpp:343] Profiler is not initialized: skipping step() invocation
STAGE:2023-03-25 06:48:52 11607:11607 ActivityProfilerController.cpp:311] Completed Stage: Warm Up
[W CPUAllocator.cpp:235] Memory block of unknown size was allocated before the profiling started, profiler results will not include the deallocation event
STAGE:2023-03-25 06:48:53 11607:11607 ActivityProfilerController.cpp:317] Completed Stage: Collection
STAGE:2023-03-25 06:48:53 11607:11607 ActivityProfilerController.cpp:321] Completed Stage: Post Processing


def get_loaders(train_bs, val_bs,):

  transform_train = transforms.Compose([
    ####### OPTIMIZATION 1 #################
      transforms.ToTensor(),
    ####### OPTIMIZATION 1 #################
      transforms.RandomCrop(32, padding=4),
      transforms.RandomHorizontalFlip(),
      transforms.GaussianBlur(3),
      transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
  ])

  transform_test = transforms.Compose([
      transforms.ToTensor(),
      transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
  ])

  trainset = torchvision.datasets.CIFAR100(
      root='./data', train=True, download=True, transform=transform_train)
  trainloader = torch.utils.data.DataLoader(
      trainset, batch_size=train_bs, shuffle=True)

  testset = torchvision.datasets.CIFAR100(
      root='./data', train=False, download=True, transform=transform_test)
  testloader = torch.utils.data.DataLoader(
      testset, batch_size=val_bs, shuffle=False)
  
  return trainloader, testloader


model = ResNet50(num_classes=100).to(device)
optimizer = optim.Adam(model.parameters(), lr=lr,weight_decay=5e-4)
scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=100)

trainloader, valloader = get_loaders(128, 128)

for epoch in range(start_epoch, end_epoch):
    epoch_start_time = time.time()
    train(model, optimizer, epoch, trainloader)
    epoch_end_time = time.time()
    test(model, optimizer, epoch, valloader)
    scheduler.step()
    if epoch > 0:
        print("Training for one epoch takes {:.3f}s".format(epoch_end_time - epoch_start_time))
        print("Speedup over baseline: {:.2f}".format(baseline_time / (epoch_end_time - epoch_start_time)))

Files already downloaded and verified
Files already downloaded and verified

Epoch: 0

  0%|          | 0/391 [00:00<?, ?it/s]

  0%|          | 0/79 [00:00<?, ?it/s]

Epoch: 1

  0%|          | 0/391 [00:00<?, ?it/s]

  0%|          | 0/79 [00:00<?, ?it/s]

Training for one epoch takes 60.969s
Speedup over baseline: 1.29


def get_loaders(train_bs, val_bs,):

  transform_train = transforms.Compose([
      transforms.ToTensor(),
      transforms.RandomCrop(32, padding=4),
      transforms.RandomHorizontalFlip(),
      transforms.GaussianBlur(3),
      transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
  ])

  transform_test = transforms.Compose([
      transforms.ToTensor(),
      transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
  ])

  trainset = torchvision.datasets.CIFAR100(
      root='./data', train=True, download=True, transform=transform_train)
  trainloader = torch.utils.data.DataLoader(
    ####### OPTIMIZATION 2.1 #################
      trainset, batch_size=train_bs, shuffle=True,
      pin_memory=True,
      num_workers=7,
    ####### OPTIMIZATION 2.1 #################
  )

  testset = torchvision.datasets.CIFAR100(
      root='./data', train=False, download=True, transform=transform_test)
  testloader = torch.utils.data.DataLoader(
    ####### OPTIMIZATION 2 #################
      testset, batch_size=val_bs, shuffle=False,
      pin_memory=True,
      num_workers=7,
    ####### OPTIMIZATION 2 #################
  )
  
  return trainloader, testloader


####### OPTIMIZATION 2.2 #################
trainloader, valloader = get_loaders(256, 512)
####### OPTIMIZATION 2.2 #################

model = ResNet50(num_classes=100).to(device)
optimizer = optim.Adam(model.parameters(), lr=lr,weight_decay=5e-4)
scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=100)

for epoch in range(start_epoch, end_epoch):
    epoch_start_time = time.time()
    train(model, optimizer, epoch, trainloader)
    epoch_end_time = time.time()
    test(model, optimizer, epoch, valloader)
    scheduler.step()
    if epoch > 0:
        print("Training for one epoch takes {:.3f}s".format(epoch_end_time - epoch_start_time))
        print("Speedup over baseline: {:.2f}".format(baseline_time / (epoch_end_time - epoch_start_time)))

Files already downloaded and verified
Files already downloaded and verified

Epoch: 0

  0%|          | 0/196 [00:00<?, ?it/s]

  0%|          | 0/20 [00:00<?, ?it/s]

Epoch: 1

  0%|          | 0/196 [00:00<?, ?it/s]

  0%|          | 0/20 [00:00<?, ?it/s]

Training for one epoch takes 22.582s
Speedup over baseline: 3.48


def train(model, optimizer, grad_scalar, epoch, trainloader, prof=None):
    print('\nEpoch: %d' % epoch)
    model.train()
    train_loss = 0
    correct = 0
    total = 0

    with tqdm(total=len(trainloader), file=sys.stdout, ) as pbar:
        for batch_idx, (inputs, targets) in enumerate(trainloader):
            inputs, targets = inputs.to(device), targets.to(device)
            optimizer.zero_grad()
    ####### OPTIMIZATION 3.1 #################
            with torch.autocast(device_type=device):
                outputs = model(inputs)
                loss = criterion(outputs, targets)
    ####### OPTIMIZATION 3.1 #################
            
    ####### OPTIMIZATION 3.2 #################
            grad_scalar.scale(loss).backward()
            grad_scalar.step(optimizer)
            grad_scalar.update()
    ####### OPTIMIZATION 3.2 #################
        
            train_loss += loss.item()
            _, predicted = outputs.max(-1)
            total += targets.size(0)
            correct += predicted.eq(targets).sum().item()

            pbar.set_description('[%3d]/[%3d]Loss: %.3f | Acc: %.3f%% (%d/%d)'
                        % (batch_idx, len(trainloader), train_loss/(batch_idx+1), 
                            100.*correct/total, correct, total),)
            pbar.update(1)
            
            if prof is not None:
                prof.step()


torch.backends.cuda.benchmark = True
torch.backends.cuda.deterministic = False

trainloader, valloader = get_loaders(256, 512)

model = ResNet50(num_classes=100).to(device)
model.train()

####### OPTIMIZATION 3.3 #################
model.to(memory_format=torch.channels_last)
####### OPTIMIZATION 3.3 #################

optimizer = optim.Adam(model.parameters(), lr=lr, weight_decay=5e-4)
grad_scalar = torch.cuda.amp.GradScaler()

scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=100)


for epoch in range(start_epoch, end_epoch):
    epoch_start_time = time.time()
    train(model, optimizer, grad_scalar, epoch, trainloader)
    epoch_end_time = time.time()
    test(model, optimizer, epoch, valloader)
    scheduler.step()
    if epoch > 0:
        print("Training for one epoch takes {:.3f}s".format(epoch_end_time - epoch_start_time))
        print("Speedup over baseline: {:.2f}".format(baseline_time / (epoch_end_time - epoch_start_time)))

Files already downloaded and verified
Files already downloaded and verified

Epoch: 0

  0%|          | 0/196 [00:00<?, ?it/s]

  0%|          | 0/20 [00:00<?, ?it/s]

Epoch: 1

  0%|          | 0/196 [00:00<?, ?it/s]

  0%|          | 0/20 [00:00<?, ?it/s]

Training for one epoch takes 11.938s
Speedup over baseline: 6.57


def get_loaders(train_bs, val_bs,):

  transform_train = transforms.Compose([
      transforms.ToTensor(),
      transforms.RandomCrop(32, padding=4),
      transforms.RandomHorizontalFlip(),
      transforms.GaussianBlur(3),
      transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
  ])

  transform_test = transforms.Compose([
      transforms.ToTensor(),
      transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
  ])

  trainset = torchvision.datasets.CIFAR100(
      root='./data', train=True, download=True, transform=transform_train)
  trainloader = torch.utils.data.DataLoader(
      trainset, batch_size=train_bs, shuffle=True,
      pin_memory=True,
      num_workers=8,
    ####### OPTIMIZATION 4.1 #################
      drop_last=True,
    ####### OPTIMIZATION 4.1 #################
  )

  testset = torchvision.datasets.CIFAR100(
      root='./data', train=False, download=True, transform=transform_test)
  testloader = torch.utils.data.DataLoader(
      testset, batch_size=val_bs, shuffle=False,
      pin_memory=True,
      num_workers=8,
    ####### OPTIMIZATION 4.2 #################
      drop_last=True,
    ####### OPTIMIZATION 4.2 #################
  )
  
  return trainloader, testloader


trainloader, valloader = get_loaders(256, 512)

model = ResNet50(num_classes=100).to(device)
model.train()
model.to(memory_format=torch.channels_last)

####### OPTIMIZATION 4.3 #################
traced_model = torch.jit.trace(model, (torch.rand(256, 3, 32, 32, device=device),))
####### OPTIMIZATION 4.3 #################

optimizer = optim.Adam(model.parameters(), lr=lr, weight_decay=5e-4)

grad_scalar = torch.cuda.amp.GradScaler()

scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=100)

for epoch in range(start_epoch, end_epoch):
    epoch_start_time = time.time()
    train(traced_model, optimizer, grad_scalar, epoch, trainloader)
    epoch_end_time = time.time()
    test(model, optimizer, epoch, valloader)
    scheduler.step()
    if epoch > 0:
        print("Training for one epoch takes {:.3f}s".format(epoch_end_time - epoch_start_time))
        print("Speedup over baseline: {:.2f}".format(baseline_time / (epoch_end_time - epoch_start_time)))

Files already downloaded and verified
Files already downloaded and verified

Epoch: 0

  0%|          | 0/195 [00:00<?, ?it/s]

  0%|          | 0/19 [00:00<?, ?it/s]

Epoch: 1

  0%|          | 0/195 [00:00<?, ?it/s]

  0%|          | 0/19 [00:00<?, ?it/s]

Training for one epoch takes 11.360s
Speedup over baseline: 6.91


trainloader, valloader = get_loaders(256, 512)

model = ResNet50(num_classes=100).to(device)
model.train()
model.to(memory_format=torch.channels_last)

traced_model = torch.jit.trace(model, (torch.rand(256, 3, 32, 32, device=device),))

####### OPTIMIZATION 5 #################
with torch.amp.autocast(device_type=device, cache_enabled=False):
    graphed_model = torch.cuda.make_graphed_callables(traced_model, (torch.rand(256, 3, 32, 32, device=device),))
####### OPTIMIZATION 5 #################

optimizer = optim.Adam(model.parameters(), lr=lr, weight_decay=5e-4)

grad_scalar = torch.cuda.amp.GradScaler()

scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=100)

for epoch in range(start_epoch, end_epoch):
    epoch_start_time = time.time()
    train(graphed_model, optimizer, grad_scalar, epoch, trainloader)
    epoch_end_time = time.time()
    test(model, optimizer, epoch, valloader)
    scheduler.step()
    if epoch > 0:
        print("Training for one epoch takes {:.3f}s".format(epoch_end_time - epoch_start_time))
        print("Speedup over baseline: {:.2f}".format(baseline_time / (epoch_end_time - epoch_start_time)))

Files already downloaded and verified
Files already downloaded and verified

Epoch: 0

  0%|          | 0/195 [00:00<?, ?it/s]

  0%|          | 0/19 [00:00<?, ?it/s]

Epoch: 1

  0%|          | 0/195 [00:00<?, ?it/s]

  0%|          | 0/19 [00:00<?, ?it/s]

Training for one epoch takes 9.217s
Speedup over baseline: 8.51

About this notebook¶

Model¶

Data¶

Training¶

Baseline¶

Profiling with torch.profiler¶

Open profiled results¶

Optimizations¶

Optimization1: re-order augmentation¶

Optimization 2: pin_memory, pre-fetching, and batch_size¶

Optimization 3: Mixed precision training¶

Optimization 4: torch.jit¶

Optimization 5: CUDAGraph¶

Comments¶

Connect with us¶