【資源分享】Homemade CAPTCHA Image Dataset

3/12/2020

CAPTCHA 的全文是「Completely Automated Public Turing test to tell Computers and Humans Apart」，字面上的翻譯是：全自動區分電腦和人類的公開圖靈測試，咋聽之下好像蠻高大上的，不過其實它在我們生活中還蠻常見的，也就是我們俗稱的驗證碼。

CAPTCHA 主要是一種用來區分 User 是 Bot 還是真人的機制，在 CAPTCHA 的測試中，Server 端會生成一個問題由 User 來解答。這個問題由電腦自動來生成並與評判，而問題必須設計成只有真人才能解答，由於我們把設計成電腦無法解答，所以可以藉由 User 是否能正確的回答問題來判斷是真人還是 Bot。

CAPTCHA 當初它被設計出來的目的就是為了抵抗日漸盛行的網路爬蟲（Web Crawler）技術。網路爬蟲也有人叫它網路蜘蛛（Spider），是一種用來自動瀏覽全球資訊網（World Wide Web）的網路機器人，它主要的目的也就是到各個網站去抓資料。雖然有人用程式到你的網站來抓資料聽起還好像沒有很 "母湯" 但是事實上，現今的網站普遍來說或多或少都會配置一些反爬蟲手段，畢竟現在就連一台筆記型電腦的性能可能都比某些小站的伺服器還強，如果它不對此加以限制，分分鐘你伺服器的資源就會被爬蟲給耗盡了，使得無法去服務真實的用戶。

而最終基於上述這個理念所發展出來的 CAPTCHA 機制也是形形色色，早期的 CAPTCHA 主要都是基於圖像的（輸入字符 or 選出飛機、斑馬、大象等等），到後來現今仍蠻常見 Google 的 reCAPTCHA v2（在一個小視窗中勾選我不是機器人），以及最新的 reCAPTCHA v3 等等。

本文接下來要提供的就是早期那種基於圖像要求 User 輸入字符的 CAPTCHA Image ( with Label ) Dataset。
其實這個就是我在【經驗分享】興大資工碩士在職專班：修課心得一文中所提及：用來訓練 CNN 去破解年代售票系統 CAPTCHA 的 Dataset，Jason 最近剛好碰到有人跟我要這份資料集，就想說乾脆寫一篇放在網路上公開給大家做使用吧~

其實這份資料集除了可以用在機器學習、深度學習等領域外，也蠻適合拿去做傳統影像處理 OCR 的研究。
裡面包含了11308 張內有4個字符的 CAPTCHA 圖檔，解析度為：90*25、保存格式為：png
及一個記錄11308 筆正確解答的CSV檔：label.csv

【檔案下載連結】

3 評論

余佑駿

5/11/2020 17:52:03

下載連結好像不行欸><
點跳過廣告還是一樣沒有東西

回覆

Jason Chen

5/11/2020 20:31:43

Hi 余佑駿,
我剛剛有去確認了下，這個連結位址應該是正確的沒什麼問題。
蠻有可能是你的 Browser 裡面裝了某種 Blocker 吧!
或者是 PC端的防毒擋掉之類的，那你可以換試試看下方這個短網址：
https://reurl.cc/exM9mK
應該就可以直接看到我放在 google drive 上的 zip 檔了。

回覆

余佑駿

5/12/2020 06:12:59

謝謝!!可以了~

不知道欸~我開無痕還是一樣，可能chrome本身有擋XD
因為我請我朋友開也遇到依樣問題~所以才來留言!! 謝謝你回福這麼快欸!!
大感謝~

【資源分享】Homemade CAPTCHA Image Dataset

發表回覆。

Jason Chen

文章分類

封存檔