leetron
leetron

Leetron,中學時文科成績總比理科好,但大學和研究所時選擇了理科,也從事了理科相關的職業。理科有其美的一面,現在退休了,又想回來用餘生追求文科的美,特別是想用文字來表達科技領域中人文的一面。

人工智慧背後的「人工」和「工人」

在我們邁向人工智能世界的旅途中,讓我們不要忘記有一群拿著最小回報、默默用雙手推動時代巨輪的無名英雄們。
Based on photo by Andrew “Donovan” Valdivia on Unsplash

我們常擔心人工智慧會取代很多現在「人」在做的工作。但是在那一天到來之前,很諷刺的是人工智慧反而創造了一種新型態的必須由人來做的工作。這個工作就是「數據標註」。

現在當紅的「人工智慧」主流技術之一就是用所謂的「監督式學習」來訓練電腦模型。這種訓練方式需要大量已經「標註」好的數據。所謂「標註」,就是每一筆數據代表的物體或者意義。比如說我們想訓練電腦識別一張圖像上的物體是貓還是狗,我們就要先準備大量標注過的貓的圖像和狗的圖像。一個狗的圖像其「標註」就是「狗」;貓的圖像「標註」就是「貓」。

「監督式學習」訓練電腦模型從「錯」中學。你給電腦看大量貓和狗參雜的圖像,讓電腦猜每張圖像是貓還是狗。剛開始電腦對貓、狗沒有概念只會亂猜,可是每猜一次,從「標註」就能知道是猜對了還是猜錯了。猜錯了電腦會自我調整。這樣經過大量的圖像和猜謎遊戲訓練下來,電腦就能聰明起來。下次你給訓練完成的電腦一張它沒看過的貓或者狗的圖像,它就能正確的認出這張圖像上是貓還是狗。

標註每張訓練圖像是貓還是狗還是需要「人」一張圖像一張圖像去做的。為了要讓機器能學習,就需要大量的數據,但是每一筆數據都要人先花功夫做標註。這就是光鮮亮麗、高科技中的高科技、「人工智慧」背後我們看不見或是不想看見的「人工」。

光是訓練電腦學習一些相對簡單的事情譬如上述的認貓、認狗之類,所需要的數據筆數動則都是以百萬或是千萬計。以有名的圖像數據庫ImageNet為例[2],就包含超過一千四百萬張、標註成二萬多類別的圖像。這麼大的數據量所耗費的標註人力也大到難以想像。當年ImageNet是動用了Amazon Mechanical Turk在全世界167個國家,找了五萬個工作者,花了三年的功夫來標註這些圖像[3][4]。

今天全世界各式各樣的智能應用像是自駕車或人臉識別等等越來越多,當然也就需要越來越多的人投入標註數據的工作。當我們在享受人工智慧的成果的時候,有想過這些背後的無名英雄嗎?

最近看了《「數據摺疊」:今天,那些人工智能背後「標數據的人」正在回家》這篇報導[1],描述了現在中國大陸數據標註工作者的血淚與辛酸。這些人多半受的教育不高,每天消耗體力、眼力,拿身體、拿青春標註數據換取微薄的工資。他們很多原來是社會的邊緣人,今天算是進階到了高科技的邊緣人,但是茫茫的前途還是不變。

此文中提到了下面這個對比,在同一個訓練機構中有平均教育程度低的數據標識班的學員,也有教育程度高的演算法班的學員:

『兼職標數據的培訓班學員一個月的收入在2000元人民幣左右。如果全職做,人均工資約4000到5000元。而坐在對面教室的未來算法工程師,剛畢業時,起薪就可能達到30萬元/年。』

就像是一個在建築工地搬磚的工人大概永遠不能期望有一天能成為大樓的建築設計師,這些「數據標註工」也一樣無望能成為算法工程師。

今天中國大陸這群「數據標註工」,讓我想起了百多年前在美國修築太平洋鐵路的華工[5]。一百五十年前,華工們手拿著鏟子、鐵鍬,一個枕木一個枕木的鋪下去,讓一個大國,從「農業時代」加速進入了「工業時代」。今天又是另一群工人,手裡換成了鍵盤、滑鼠,一個數據一個數據的標註下去,讓另外一個大國,能夠從「工業時代」加速進入「人工智能時代」。兩代工人,工作不同,其辛苦、心酸則如一。

昔日在異鄉打拼的華工們,都己沒世而名不稱。今天這一群工人,比較幸運的是在為自己的祖國燃燒。當有一天祖國成了智能大國,讓我們都不要忘記這些拿著最小回報、默默用雙手推動時代巨輪的無名英雄們。在滾滾奔流的曆史長河中,他們曾經留下的倒影也許只是驚鴻一瞥,但那是我們在邁向人工智能世界旅途中最美麗的一道風景。

對數據標注有興趣的朋友,可進一步參照[6][7]參考文獻。

 [1]「數據摺疊」:今天,那些人工智能背後「標數據的人」正在回家
http://bangqu.com/W179X9.html
[2]ImageNet
http://www.image-net.org/
[3]ImageNet: A Large-Scale Hierarchical Image Database
 https://image-net.org/static_files/papers/imagenet_cvpr09.pdf
 https://vision.cs.uiuc.edu/annotation/papers/cvpr08_annotation.pdf
[4] 楊瀾∶人工智能真的來了
   Chapter 2∶ ImageNet的洪荒之力
   2017,江蘇鳳凰文藝出版社
[5] 太平洋鐵路:華工用汗水和鮮血澆灌的奇蹟
https://kknews.cc/history/2bgjm5g.html
[6] 背後有班「AI民工」日日在框圖
https://www.facebook.com/artificialintelligencehk/posts/841657919522390
[7] 台灣身障AI數據標註師
https://www.facebook.com/FlowInnovation/videos/372945773905352/
 
 
CC BY-NC-ND 2.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

加载中…

发布评论