【深度學習】在 Google Colab 上訓練自己的 YOLOv4 模型

7/31/2020

話說也兩三個月沒更新了，最近都在忙論文跟畢業的事情，Jason 甚至五月中就從前公司離職，整天窩在家專心搞畢論，搞得自己壓力山大 =口= 不過還好，皇天不負苦心人也是順利地蹭畢業了xDD

回到正題，在上一篇：【深度學習】在 Google Colab 上創建 YOLOv4 的運行環境中我們已經介紹了如何在 Google Colab 中建置一個可以運行 YOLO專用的深度學習框架－darknet 的環境，接著我們便可以進一步的來訓練一個自己的物件偵測模型。

為了客製化訓練了一個自己專用的物件偵測器(Object Detector)，首先我們要準備一個自己的資料集(dataset)，資料集準備的方法可以參考這一篇：【開發工具】標註自己的影像資料集－LabelImg 或者你也可以從公開資料集如：Pascal VOC、MS COCO Dataset 中抽取出自己要的資料來製作你的資料集，關於這部分如果之後有機會的話 Jason 再另外寫一篇來做介紹吧，這篇還是先著重在教如何訓練。

在資料集的部分搞定後，接著你還會需要準備六個檔案，分別是：

obj.data
obj.names
yolov4.cfg
train.txt
valid.txt
pre-trained.weight

obj.data 是用來告訴 darknet 這套深度學習框架，其他用來訓練的檔案資源擺在哪邊、偵測物件的類別數量以及訓練權重該備份到哪個位置去，就有點像檔案目錄的感覺，如下圖所示：

obj.names 則是用來告訴 darknet 你分類各個類別的名稱，例如我想對車輛進行偵測，並將其分類成公車(bus)、汽車(car)、機車(motorbike)、貨車(truck)等四個類別，那這邊就應該寫成：

yolov4.cfg 則是用來告訴 darknet 你模型的架構長的怎樣，基本上這個部分我們可以直接拿 YOLOv4 論文作者提供的 yolov4-custom.cfg 來修改就可以了，要改的地方不多，首先你用 Crtl+F 找到 [yolo]，這是YOLO網路中我們最終用於預測的 YOLO head，你應該會看到裡面預設的 classes=80，這邊就改成你自己的類別數量，如果延續上面舉的例子這邊就是把它改成 classes=4，而YOLO網路中的 YOLO head 有三組，所以請確保你三組都有改到，此外在這每組 YOLO head 前會有一個卷積層，預設會長得像下面寫的這樣：
-----------------------------
[convolutional]
size=1
stride=1
pad=1
filters=255
activation=linear
-----------------------------
這邊我們需要把它 filters 的數量進行調整，改成符合你類別數量的，修改的方式如下所述：
filters = (classes + 5) x 3
如果你知道 YOLO 的預測原理那你大概就知道這邊為什麼是這樣改，所以像我們類別數量是4的話，就應該把它改成 filters=27，如果你的類別數量是1那這邊就是改成filters=18；如果是2就改成filters=21以此類推，然後要注意的是這邊一樣是三組 [yolo] 前的卷積都要改。

至於其他 [net] 底下的那些網路學習參數，如果你不太懂的話不改也是沒關係的，唯一你可能需要改的只有batch、subdivisions 這兩個參數吧，不過這就取決於你GPU有多大的記憶體可以供你使用了。

最後 train.txt 跟 valid.txt 則是用來告訴 darknet 你那些訓練及驗證用的檔案是存放在哪裡，基本上兩個檔案裡面都是用一行來紀錄一張圖檔的路徑，不過請記得先將你的標籤檔轉成YOLO專用的格式並跟圖檔儲存在同一個路徑之下，這兩個檔案的內容大概會長得像這個樣子：

而這邊所謂的 pre-trained.weights 其實就跟我們在訓練其他大型的圖像識別網路一樣，利用了遷移式學習的技巧拿已經 ptr-trained 過的權重檔接續做訓練，可以有效減少訓練所需的時間，並可以避免因為你訓練資料不足而導致 overfitting 的狀況，這部分我們一樣直接拿 YOLOv4 作者幫我們 pre-trained 好的權重來用就好了，我們應該在前面建置環境那 Part 就已經順便下載好了，但如果你沒照那篇做的，可以用下面的連結網址來下載：

https://github.com/AlexeyAB/darknet/releases/download/darknet_yolo_v3_optimal/yolov4.conv.137

在這幾個檔案都準備完成後我們就可以來進行訓練了！

首先把剛剛準備好的那些檔案與資料集上傳到你的 Google Drive，然後新開啟一個帶有 GPU 的 Colab 專案！
接著我會先習慣檢查一下此次拿到的 GPU是甚麼型號，有多少記憶體：

因為你每次開啟 Colab 它會分配給你的 GPU 型號都不固定，而不同的GPU 擁有的記憶體大小都不相同，這就會影響你 batch、subdivisions 的設定，除非你把他們設的很小，不然你可能上次用還好好的，下次要訓練跑一跑就噴個 CUDA out of memory 給你看，所以我是習慣會先檢查這次它給什麼GPU，如果剛好分到比較低階的，我會試著重刷個幾次看能不能換出比較高階的GPU來做使用，像上圖這樣分到 K80 我基本上會把它刷掉，試著去換 T4 或者是P100 那種等級的GPU。

接著我們將之前建好的運行環境裝到這台 VM 裡面：

這部分基本上就是把上次弄好的 darknet.zip 複製到你這台 VM 然後解壓縮就好了，但如果你之前是直接把 darknet 安裝在 Google Drive 上的人，你會發現即便你把 Google Drive Mount 到 Colab VM 仍無法正常執行，那是因為你VM的作業系統沒有執行那個檔案的權限，所以這時候你就要給它執行的權限，可以參考我寫在 if RUN_ON_GOOGLE_DRIVE 底下的那段代碼。

把進行環境裝進我們 VM 後再來就是進到 darknet folder 底下來，然後透過運行：
!./darknet　detector　train　<.data 的位置>　<.cfg 的位置>　<.weights 的位置>　-dont_show
就可以開始訓練模型了！
在第一次訓練的時候我們是使用下載來的 pre-trained weights 來做訓練，如果後面要接續之前的訓練來做則改用每次模型練完自動保存的那個 yolov4_last weights。

另外由於 Google Colab 是讓你免費使用的，所以它也有一些限制在，像是無法連續運行超過 12hr 所以我們真的要用 Colab 來訓練一個模型的話，是會需要分很多次來進行的！所以請確保你的 last weights 會存到你的 google drive 上，免得前面訓練的都白費了，然後為了分次訓練圖表可以顯示在同一張圖上我們加上 -chart chart.png 這個指令來實現，至於計算 mAP的部分，像這樣在 colab上分多次做我實測它會有個 bug 在，每次12個小時到你重新開始訓練後 darknet 會自動把要計算的那個 iteration 往後延，所以加 -map 那個指令是沒用的，最後我也懶得去改它 detector.c 的檔案所以算 map 的部份我就自己做了，就沒有在訓練的過程讓 darknet 做。

之後可能會再另外分享一篇如何寫一個 python 腳本來自動產生這些訓練所需的檔案文件，然後再順便再教一下如何把資料集從 VOC 格式轉成 YOLO 專用格式，今天先這樣，如果上面那些代碼你懶得打的話，可以點下面那個載點來下載我打好的 ipynb。
【懶人載點】

最後我想補充的是，如非必要真的、真的、真的不要用Google Colab 來 Train YOLO！
因為這是一件會讓你非常、非常、非常抓狂的事 T^T
如果你的資料集不大倒還好說，但是今天如果你的資料集太大，大到 Google Colab 的 VM 裝不下，你就只能放在 Google Drive 上然後透過 Mount 的方式來存取，但是你馬上就會發現效能瓶頸的問題，用膝蓋想也知道用網路讀取資料的速度跟從硬碟讀取的速度根本不能比。
另外 12 hr 限制也是讓人非常崩潰的一件事情，因為搞得你要一直去重連，而往往也還不到 12hr 它就有可能因為其他問題然後自己關掉了，加上如果你長時間使用GPU，Google 會把你這個帳號短暫的停權掉，你就會有一段時間不能使用GPU，大概會停一天吧，然後為了不讓這個停權問題浪費到你的時間，你可能又要去搞好幾個 google 帳號來輪流跑 training，總之就屎尿很多啦~ 真心不推

23 評論

Jimmy

8/9/2020 11:18:05

學長恭喜你畢業! 也感謝你之前不吝回答我相關的問題
現在就換我進去蹲了

回覆

cheese

2/21/2021 22:57:08

您好，不好意思我想請教您，train.txt 跟 valid.txt 這兩個檔案，若我是用您文章中所提及的開發工具LabelImg ，需要一行一行的打出位子嗎? 謝謝您

回覆

Jason Chen

2/21/2021 23:57:36

Hi cheese,

我不太確定你的意思是什麼，如我文中所提的 train.txt 跟 valid.txt 這兩個檔案是要告訴 darknet 你的訓練資料與驗證資料是放在哪裡，比如說你在D槽底下有一個資料夾A用來放訓練圖檔1~15 跟資料夾B用來放驗證圖檔16~20，那你的 train.txt 裡面就要寫 >>>
D:/A/1.jpg
D:/A/2.jpg
D:/A/3.jpg
...
同理 valid.txt 裡面就是寫 >>>
D:/B/16.jpg
D:/B/17.jpg
...
但是通常我們訓練的檔案數量會很多，所以並不會用人工的方式一行一行寫，一般來說就用 python 寫個小程式，讓它掃描目標資料夾底下的所有圖檔，然後再寫檔輸出就好了。

而 LabelImg 是專門用來做 Object Detection 標籤的一個工具，具體一點來說，你的圖檔 1.jpg 用 labelimg 標完之後你會得到一個與圖檔同名的標籤檔 ( 以此處的範例來說就是 1.txt 或者 1.xml)，你 1~15的圖檔標完之後，你在A的資料夾底下就會有 1~15.jpg 跟 1~15.txt 共30個檔案，標籤檔並不用特別寫進 train.txt，因為 darknet 會自動在同個資料夾找相同檔名的標籤檔(.txt)，若找不到標籤檔則會自動當作沒標籤處理(負樣本)。

另外，你在用 LabelImg 進行標記時，標籤檔可以選擇存成 VOC格式(.xml) 或者 YOLO格式(.txt)，我們一般都會存成 VOC格式，因為比較泛用且資訊的保留比較完整，等真的要給YOLO用時，再用個簡單的小程式即可把 .xml 標籤檔轉成 .txt 來做使用。

希望這樣有回答到你的問題

F.Y.R

回覆

Gary

5/11/2021 12:35:48

拜讀大作並且依樣畫葫蘆照做，獲益良多，多謝。
請教有關訓練結果的問題:
1. 即使 avg loss達到0.7 左右，mAP只在 50~70%之間擺盪，無法提升。
dataset images train 有200張，test有50張。將相片數目倍增也一樣。
請問有什麼方法可用?
2. 如何畫出 chart.png ?
謝謝 !

回覆

Jason Chen

5/11/2021 22:36:48

Hi Gary,

關於模型訓練的狀況好壞 & 如何改善、調整這類的問題還蠻 case by case 的，通常要先釐清你的問題(應用情境)是什麼 & 實際看到資料才比較能給出有效的建議。如果你要我隔空抓藥的話，我會建議你先自己想一想你今天是要分幾類，然後在這200張影像中每個類別的樣本有多少? 會不會你是要分成200類，然後給個類的樣本就只有少少的幾個，這樣模型它分得不好也是情有可原的。或者你的資料集中是不是存在 data imbalance 的問題，然後是那些不平衡的少數類別拉低了你的 mAP? 建議你可以從你模型預測的結果下手，觀察一下你是 FN太高還是 FP 太高導致 mAP不如你的預期。
要我說的話，我是覺得200張影像應該是太少! 一般來說建議每個類別最少都要有幾百個樣本，這樣模型比較能 train 的好。
另外 YOLOv4 也有內建很多很強大的 Data Augmentation 方法，你可以在 yolov4.cfg 中修改相關參數來使用它，當然你也可以自己使用些影像處理的技巧來做 Data Augmentation，增加你的訓練資料量。

至於第2點的部分，只要你有照我文中的那樣在訓練的指令中下 -map -chart chart.png 的參數，Darknet 它就會幫你畫 chart 了，只是它預設是存在 darknet folder 底下，如果你是用 colab 訓練並把 darknet 的 repo 複製到 VM 上跑的話，有一個問題就是，當你掛一個晚上回來 colab VM 被 google 強制關閉時，你的 chart 就不見了。解決的方法有兩個，一個是去改 darknet 的 c code 讓他 chart 可以存到別的路徑，另一個比較簡單的解法就是像文中 1-2 那樣，你 darknet 環境就不要複製到 colab VM了，而是一開始就把環境建在 google drive 上，這樣就不怕 chart 會丟失了。

希望這些資訊有幫助到你 :")

F.Y.I

回覆

Gary Chen

5/12/2021 10:07:34

Jason 早，
謝謝你的快速回覆。
關於dataset問題，一開始我準備了2千多張的相片，包含了7種object。這些相片已包括用data augmentation產生的相片，訓練結果很不理想，所以才把其中一種物件的相片提出單獨訓練，結果如上述。我再多練習。

關於chart.png顯示問題:我從你上一篇大作建立colab環境開始就完全按照你的內容進行，所以是把darknet.zip存在mydrive上，每次執行訓練時選擇colab VM再解壓縮(你的default設定)。今天改為選在google drive上執行，結果出現以下的error :
RUN_ON_GOOGLE_DRIVE = True

if RUN_ON_GOOGLE_DRIVE:
%cd ../mydrive
# Give darknet execute permissions
!chmod 755 /mydrive/darknet/darknet
!ls -la /mydrive/darknet/darknet
else:
# Copy the darknet from Google Drive to Google Colab VM
!cp /mydrive/darknet.zip /content/darknet.zip
# Unzip the darknet file
!unzip /content/darknet.zip

# go into darknet folder
%cd darknet

[Errno 2] No such file or directory: '../mydrive'
/content/gdrive/My Drive/YOLO/darknet
chmod: cannot access '/mydrive/darknet/darknet': No such file or directory
ls: cannot access '/mydrive/darknet/darknet': No such file or directory
[Errno 2] No such file or directory: 'darknet'
/content/gdrive/My Drive/YOLO/darknet

試過幾個方法還是無解，是不是要在環境設置時需做調整(目前是以darknet.zip的方式存在mydrive上)? 請教 :
1. 該如何一開始就把執行環境建在 google drive 上? 在這種環境下，該如何顯示chart.png?
2. 如果還是在VM下執行，在執行一段時間(例如2000 iterations)後用手動中止，這時能否顯示chart.png? 該如何顯示 ?(在訓練的指令中有 -map -chart chart.png 等參數)
目前為了看訓練結果，都是緊盯著訓練過程，在它計算mAP時將結果copy screen下來儲存，搞死人了。

再次的謝謝指導，功德無量 !

Jason Chen

5/13/2021 01:17:54

Hi Gary,

關於第一點，你打開 colab 然後先將 colab VM 與 google drive mount 在一起，然後先進入 google drive 底下的資料匣，以我建環境那篇為例，你會先在你的 google drive 上建一個 space_for_YOLO 並把它 soft link 成 mydrive，這時候你就用 %cd /mydrive 接著後面的步驟就照做就可以了..
( 進入 google drive 資料夾後才 git clone -> 改 makefile -> make )

"chart.png " 會在你 darknet 資料夾底下，你在 google drive 上應該就能直接打開它了。

至於第二點，你的 "chart.png " 還是會在你 darknet 資料夾底下，只是差在說你 darknet 這個資料匣是在 colab VM 裡面，若 VM 被關閉了，資料就會丟失。

另外，如果你每迭代 1000 次的權重檔有存下來，你也可以拿那個權重檔配合資料跑一下就能算 mAP，其他詳細的內容你可以參考 YOLOv4作者 Github 的 readme.md 寫的非常詳盡。網址: https://github.com/AlexeyAB/darknet

F.Y.I

Gary Chen

5/13/2021 07:49:09

謝謝，感恩

回覆

Gary Chen

5/19/2021 17:27:30

請問，在AlexeyAB GitHub README.md 內有提到:
• desirable that your training dataset include images with non-labeled objects that you do not want to detect - negative samples without bounded box (empty .txt files) - use as many images of negative samples as there are images with objects

通常以為dataset內的相片一定是要有要偵測的物件，且要labeling。這段話的意思是要有一些非偵測物件的相片在dataset內，不要加label，且這種相片數目要與待偵測相片數目相當 ?

謝謝

回覆

Jason Chen

5/19/2021 21:17:41

Hi Gary,

一般來說，在 Object Detection 的架構下，我們並不需要特別再去準備負樣本。因為在一張影像中，除了被你框選標記的區域是被 OD 視為正樣本之外，其他的區域 ( 即沒被框選到的背景 ) 自動就會被當成負樣本在訓練。所以正常情況下，負樣本的數量是相當充足的，並不需要另外添加，當然有一種狀況是，有一種潛在的 Object 其特徵與你想偵測的東西十分相似，但是你不想偵測它又怕你的模型會誤檢時，就可以考慮將它們當作負樣本加入你的訓練集來訓練模型。

舉一個具體一點的例子來說，你今天想做一個貓貓偵測器，希望它能幫你抓出影像中所有的貓貓，其他的東西都不要。正常來說，你只要準備一個標註好貓貓的資料集來訓練你的模型就可以了，而它應該也要 work 的很好，但是當今天有一隻石虎或者美洲豹亂入的時候，你的 model 就有很大的機率分不出它到底是不是貓貓進而誤檢了。於是你就可以在你的訓練集中加入石虎、美洲豹、獵豹等等的影像當作負樣本，來訓練你的模型。

作者這段話是提醒你們如果想這樣做，記得還是要生成一個與影像檔名同名的標籤檔( .txt )，但是裡面不需要填寫任何內容。然後也請記得將這些負樣本的路徑寫在 train.txt 中。

F.Y.R

回覆

Gary Chen

5/19/2021 22:00:20

Thank you Jason,

got it

Adam

12/2/2021 15:01:12

您好我照著您的步驟作業後來出現

CUDA-version: 11010 (11020), cuDNN: 7.6.5, GPU count: 1
OpenCV version: 3.2.0
Couldn't open file: /mydrive/cfg_palm/obj.data

但我有確定路徑是對的且有mount google drive
有可能是哪裡出錯了嗎?

回覆

Jason Chen

12/8/2021 14:17:04

Hi Adam,

如果是 Darknet 吐的 "Couldn't open file"，那就代表它真的沒辦法從你給的路徑來開啟那個檔案，可能是路徑有誤或者檔案損毀之類的。
照我的經驗通常都只是路徑給錯啦~ 所以還是要請你 double check 一下路徑的部分。
最簡單的方式你的 Python Code 去 import os
然後用 os 裡面的
os.path.isfile("YOUR_FILE_PATH")
它會 return 一個布林值給你，Ture 就代表檔案存在、False 就是找不到。你先確認看看吧~

F.Y.R

回覆

Jason Chen

12/8/2021 14:22:45

突然想到，再補充一點。如果確認 "obj.data" 檔案是存在的話，然後一樣會 show "Couldn't open file"，那你可以確認一下 obj.data 這個檔案裡面你填的 "內容" 是否正確，這裡面應該會填一些 Darknet 訓練時要用到其他檔案的路徑，如果這裡面其中有一個路徑它打不開，好像也是會跳 Couldn't open file 的錯誤。

Adam

12/9/2021 09:41:59

謝謝您抽空回覆,我會再試看看

Gary Chen

12/30/2021 21:05:31

Hi Jason,
在執行偵測時加入 -ext_output參數(!./darknet detector test ...... -ext_output ....) 會產生物件座標資料((left_x: 1558 top_y: 1101 width: 480 height: 1798)。請問如何將這些資料取出後用? (例如如何assign a=left_x , b=top_y , c=width, d=height等)

多謝

回覆

Jason Chen

1/7/2022 12:51:44

Hi Gary,
如果你想在你的程式裡面取得用 darknet 跑 yolo object detection 的結果，那你可以直接使用darknet裡面提供的Python API(我猜你應該是用python在做開發)來做Inference。
直接將 darknet 資料匣底下的 darknet.py import 到你程式裡面就可以了! 具體的使用方法可以參考大神(AlexeyAB)的GitHub。

回覆

Gary Chen

1/15/2022 07:52:12

多謝

kalin

1/19/2022 00:38:01

那個，請問一下 >///<
如果在google colab上做訓練,
需要把"存有圖片和標籤檔的資料夾"(假設此資料夾名稱為img)傳到google drive上面嗎(就是把img資料夾傳到space_for_YOLO資料夾裡面)?
如果需要，
train.txt 和 valid.txt 中檔案的路徑，
要怎麼設定呢?
還是用D:/... ...嗎?
還是要改成 /mydrive/img/1.jpg
/mydrive/img/2.jpg
...
這樣呢?

回覆

Jason Chen

1/23/2022 15:16:47

Hi kalin,

如果你要在 google colab 做訓練的話，那你自然需要把資料放在它可以訪問的位置上，看要是直接傳到 colab 上，或者把資料傳到你個人 google drive 上再把它跟 colab mount 在一起。一般是比較建議先傳到 google drive，因為如果你直接傳到 colab 上，等到 VM 被關掉以後資料就會不見，可能會導致需要一直反覆上傳。
train.txt & valid.txt 的路徑就要改成雲端上檔案的路徑就不會是本機的 D:/...，然後要注意的是你直接把google drive 跟 colab mount 在一起後它的路徑也並不是 /mydrive ，我是有使用 soft-link 把那串比較複雜的路徑改成 /mydrive 才能這樣用。
最後如果你要檢查路徑正不正確的話你直接在 Python code 中 import os，用 os.path.isfile() method 就可以確認了。

F.Y.R

回覆

Ray

8/4/2022 20:55:24

請問一下...
因為我的資料集有160GB左右
本身電腦配置不太好所以用colab來訓練
有沒有辦法利用hdf5或是其他儲存庫的方式來改善I/O存取的速度呢

回覆

Jason Chen

8/4/2022 22:15:32

Hi Ray,

很有趣的想法，你是打算要用 darknet 做 training 嗎? 還是要用其他的 deep learning framework ? 如果你是要用 darknet 的話，那你可能會需要改寫一點 darknet framework ( 應該只需要改寫 src/detector.c 的部分然後再重新 build 過 darknet )

或許你也可以寫一支程式，讓它先從雲端撈小一部分的資料到Colab VM上，接著開始訓練，並等你把訓練資料都撈到GPU的VRAM後，再到雲端撈另一部分，如此反覆。基本上就是 buffer 的概念，一種在端與端之間速度不匹配的時候常見的作法。

但如果是我，懶得搞那些有的沒有的東西的話，我會建議你先看一下你model 的 Input shape 是多少? 如果你的 model input shape 是 416*416，但你資料集裡面圖的解析度都很高 maybe 1920*1080，你直接把這樣圖 fit 給 darknet 其實它也吃不了、它也是要自己做 resize 的動作。而這時候如果你自己就先把你的資料集做好前處理(resize)，以上面的例子來說不就快了接近12倍? 甚至你把資料集瘦身成功後，可能就可以直接丟上 Colab 的 VM 了，就不用放在雲端上用 mount 的了。
至於要不要封 letter box 就自己判斷吧~
然後也要注意 label 有沒有跑掉!

大概這樣，給你做參考。

回覆

Ray

8/6/2022 19:11:09

非常感謝您的建議~
可以直接放到Colab VM了
載入速度直接起飛!!

【深度學習】在 Google Colab 上訓練自己的 YOLOv4 模型

發表回覆。

Jason Chen

文章分類

封存檔