這里生產(chǎn)你美顏時(shí)「一鍵瘦臉」的尖下頜,你一起學(xué)貓叫時(shí)的動態(tài)胡須,生產(chǎn)張學(xué)友演唱會被實(shí)時(shí)識別的犯人,生產(chǎn)未來的自動駕駛,智能門禁……
這里是中國特色的數(shù)據(jù)車間,他們遍布在河南、山東、河北等地的四五線小城里,日以繼夜地為世界領(lǐng)先的 AI 產(chǎn)品服務(wù)。
越來越多的人正在加入他們的行列,成為為人工智能打工的人。
「梯子(可以移動的)」
馬萌利面前出現(xiàn)一張歐洲戶外咖啡館的照片。她移動鼠標(biāo),綠色的畫框浮現(xiàn)在照片上,顯示備注「椅子」,她迅速在一瓶花束上補(bǔ)了一個(gè)綠框,標(biāo)上「花(放在容器中)」。
下一張,一個(gè)日本花卉市場,幾排密密麻麻的綠植中,馬萌利檢查了每一個(gè)標(biāo)出的「花盆」。
下一張,一個(gè)美國孩子的臥室,「椅子」、「桌子」…… 她飛速刪掉了「梯子」的畫框——客戶要求是能移動的梯子,這種高低床上已經(jīng)焊死的梯子就不能算。
下一張、下一張、下一張,不管眼前是什么場景,馬萌利手速不變,依次圈出「梯子」、「茶幾」、「地毯」、「沙發(fā)」。
「梯子」、「茶幾」、「地毯」、「沙發(fā)」。「梯子」、「茶幾」、「地毯」、「沙發(fā)」…… 如此周而復(fù)始,不停重復(fù)循環(huán)。馬萌利每天的工作從早晨 8 點(diǎn)鐘開始,坐到工位,打開電腦,輸入用戶名和密碼,移動鼠標(biāo)開始標(biāo)記,日復(fù)一日,每天持續(xù) 9 個(gè)小時(shí)。
屏幕上的圖片很模糊,這些都是從全球社交網(wǎng)絡(luò)上抓取的,角度混亂,像素也不高。那張韓國泡菜攤的照片,很明顯來自一個(gè)角落里的攝像頭。馬萌利放大圖片,在路人的腳邊,圈出一個(gè)糊成一團(tuán)的輪廓:「垃圾桶」。
旁邊工位有人打開了音箱,活潑的流行歌響了起來:「燃燒我的卡路里!」
房間里有幾百個(gè)屏幕,閃動著顏色不一的圖片,每個(gè)人都在框選同樣的內(nèi)容:垃圾桶、梯子、茶幾、地毯…… 這是河南省平頂山市郟縣,一家叫千機(jī)數(shù)據(jù)的公司,房間看起來像一個(gè)網(wǎng)吧,在網(wǎng)絡(luò)神曲伴奏下,年輕的員工們窩在柔軟的沙發(fā)里,不停地拉框。馬萌利是最后的審核員,她和同事要檢查所有人拉的框,以保證每個(gè)畫框都嚴(yán)絲合縫地貼著目標(biāo)的邊緣,圖片里所有目標(biāo)都要被框出來,不能有任何遺漏。
馬萌利每天要檢查至少 1000 張圖。手頭這個(gè)單子已經(jīng)干了兩個(gè)月,同事們標(biāo)注了上萬個(gè)垃圾桶、梯子、茶幾、地毯……29 歲的馬萌利知道,這些標(biāo)好框的圖片匯總后,將發(fā)回北京一家 AI 獨(dú)角獸公司,變成人工智能的學(xué)習(xí)材料。
她不知道的是,這幾萬個(gè)「梯子(可以移動的)」標(biāo)注,展示了梯子的無數(shù)個(gè)樣子,再經(jīng)過深度學(xué)習(xí)算法加工,最終讓計(jì)算機(jī)認(rèn)識,這就是梯子,可以移動的那種。
她日復(fù)一日標(biāo)注的數(shù)據(jù)來自百度、京東、阿里、曠視、Momenta 等大公司,全部應(yīng)用于人工智能訓(xùn)練。一種行業(yè)說法是,任何人類能在 5 歲之后做的事,對機(jī)器人來說都很簡單,但是 5 歲之前,人類用本能就能理解的實(shí)際信息,計(jì)算機(jī)要用最笨的辦法學(xué)習(xí)。這時(shí)候,就需要數(shù)以萬計(jì)的馬萌利們?yōu)槿斯ぶ悄芴峁?biāo)注服務(wù)了。
計(jì)算機(jī)認(rèn)識沙發(fā)、梯子又有什么用?
馬萌利回答不了這個(gè)問題,轉(zhuǎn)頭去問老板劉洋鋒。劉洋鋒今年 31 歲,是他去北京競標(biāo)搶到的這批活兒。他搔了搔頭發(fā),想起甲方提過一次,9 月 8 號他們要去國外參加一場世界級人工智能比賽。「這些是給那場比賽用的?」他不太確定。再往下說,他也不懂了。
為 AI 服務(wù)
我來郟縣的第一頓飯,劉洋鋒和合伙人劉磊帶我去吃了本地一家網(wǎng)紅饸饹面,面館有位漂亮的女主播,靠拍餐廳各種日常,在一家短視頻平臺上有 88 萬粉絲。中午,餐廳兩層樓坐得滿滿當(dāng)當(dāng),一半是食客,一半是慕名而來的粉絲。
我們正好遇到女孩做直播,我發(fā)現(xiàn),主播本人跟視頻不一樣:屏幕上她皮膚變好了,眼睛大大的,下巴更尖,蘋果肌更圓。
是短視頻軟件的濾鏡把她變美了。跟自拍軟件一樣,直播平臺的濾鏡靠的是人工智能,可以實(shí)時(shí)瘦臉、大眼并磨皮。APP 之所以能識別哪兒是眼睛、哪兒是下巴,正是此前有 AI 數(shù)據(jù)標(biāo)注工人標(biāo)記了那些人臉的五官。
一直到我們離開,女孩仍一刻不停地招呼新進(jìn)直播間的觀眾,對著鏡頭羞澀地笑:「我是單身,沒有男朋友。」
「她是那家老板的兒媳婦呀。」說起女主播,馬萌利一邊對著一張俄羅斯餐廳圖片拉框,一邊哈哈大笑。郟縣很小,藏不住什么秘密。她比畫了一下公司的員工們:「生拉硬扯,我們都能扯上關(guān)系。」
同在一個(gè)縣城,幾年前,馬萌利和女主播的處境差別不大。但技術(shù)后來將她們塑造成了兩類人:馬萌利成了每天為 AI 打工的人,而女主播運(yùn)用 AI 提供的便利賺錢致富。
馬萌利今年 29 歲,一見面就熱情地笑,問什么說什么。初中畢業(yè)她就出門打工,在制衣廠做過縫紉,也進(jìn)過富士康,做了 4 年線外流動員:流水線制造惠普電腦屏幕,她要隨時(shí)給人做替補(bǔ),前面做組裝,把顯示器的面板、外殼、支架都裝好。后面做測試,用數(shù)據(jù)線測屏幕上有沒有亮點(diǎn),往屏幕上貼標(biāo)簽。
回鄉(xiāng)后,她開過網(wǎng)吧,做過超市收銀員。去年,她應(yīng)聘了這份「電腦操作員」,每個(gè)月收入 3~4 千,比收銀員高,比富士康低。她覺得工作環(huán)境不錯(cuò):坐著用電腦,有空調(diào),下班早,晚上回家還能陪孩子玩一會兒。而且,3 個(gè)老板都是熟人,「我們村子都挨著,打小就認(rèn)識」。
過去一年里,馬萌利見過各種稀奇古怪的圖片,她給人體標(biāo)注過關(guān)節(jié)點(diǎn),從頭頂、脖子、膝蓋到腳踝,一共打 17 個(gè)關(guān)節(jié)點(diǎn);給道路圖里的汽車、摩托車、自行車?yán)^邊框,黑夜里的照片要比白天難一倍;她還錄過一下午音,對著手機(jī),念了 300 句話,有的短,就兩個(gè)字、五個(gè)字,有的是十幾二十幾個(gè)字,具體內(nèi)容,公司不讓往外說。
2012 年,谷歌大腦做了一個(gè)著名的實(shí)驗(yàn):1000 臺計(jì)算機(jī)組成了超過 10 億個(gè)「突觸」連接的神經(jīng)網(wǎng)絡(luò),研究者輸入了 1000 萬個(gè)靜態(tài)圖像,通過 3 天的密集尋找重復(fù)出現(xiàn)的模式后,谷歌大腦終于可以識別出一些特定的重復(fù)類別:人類面孔和人類身體,或者是一只貓。
馬萌利這樣的 AI 數(shù)據(jù)標(biāo)注工人,就是給計(jì)算機(jī)輸入圖像,為人工智能提供學(xué)習(xí)材料的人。他們用的是最原始的辦法,一張圖接一張圖地手動標(biāo)記。他們在人臉上標(biāo)注幾百個(gè)記號點(diǎn),讓計(jì)算機(jī)知道哪里是內(nèi)眼角、外眼角,瞬間擴(kuò)出大眼睛;他們錄入的語音信息,被拆分標(biāo)注后,能讓智能音箱懂得「關(guān)機(jī)」和「十分鐘后給我老公打電話」是什么意思。未來,自動駕駛的車輛之所以能在路口停下,就是因?yàn)楣と藗儤?biāo)注過紅燈、斑馬線和一幀一幀移動的行人。
關(guān)于這項(xiàng)技術(shù),最為人所熟知的一個(gè)例子是,在張學(xué)友南昌、贛州、嘉興、金華 4 場巡回演唱會上,警方用安檢時(shí)的人臉識別系統(tǒng),一共抓獲了 5 名在逃犯人。
我一提到這個(gè)新聞,劉洋鋒立刻講出了背后公司的名字。雖然沒合作過,但知道他們是如何運(yùn)轉(zhuǎn)的:當(dāng)逃犯們興沖沖地拿著票走過攝像頭時(shí),他們的面部信息已經(jīng)被抽取,實(shí)時(shí)傳到云端,與后端數(shù)據(jù)庫飛快地做比對。
這是一種無差別的信息比對,如果用傳統(tǒng)人工,在幾萬人的演唱會安檢現(xiàn)場找到一名在逃犯,需要成百上千名安防人員。現(xiàn)在,只要幾秒鐘,比對完成,系統(tǒng)發(fā)出警告,警察按圖索驥,拿下案犯。
太簡單了,就跟 QQ 截圖差不多
千機(jī)數(shù)據(jù)公司只有一年歷史,從設(shè)想到成立,一共才花了 3 天時(shí)間。
第一天,劉洋鋒和另外兩名創(chuàng)始人聚在一起,琢磨以后要干點(diǎn)兒什么。他翻出一個(gè)文件,一家江蘇的數(shù)據(jù)標(biāo)注公司在轉(zhuǎn)賣一個(gè)單子,提到一個(gè)新鮮的概念:數(shù)據(jù)標(biāo)注。
劉洋鋒試驗(yàn)了一下軟件,在一張馬路的照片上,他給一個(gè)行人圈了一個(gè)框——太簡單了,就跟 QQ 截圖差不多。
第二天,三個(gè)人就去買了網(wǎng)線,去平頂山買了 20 個(gè)格子間卡位,舊貨市場買的,90 塊錢一個(gè)。
第三天,面試。劉洋鋒有個(gè)開手機(jī)店的老表,在鄉(xiāng)鎮(zhèn)里混了七八年了,「他有微信群,認(rèn)識的人多,一發(fā)朋友圈就有人來。」招工唯一的要求是,年齡不要太大。招 20 個(gè),去掉幾個(gè)四十多歲的應(yīng)聘者,正好招滿。
2007 年,普林斯頓大學(xué)助理教授、計(jì)算機(jī)視覺專家李飛飛第一次試驗(yàn)做數(shù)據(jù)標(biāo)注時(shí),她以 10 美元 / 小時(shí)的價(jià)格,雇傭了一批普林斯頓的本科生。10 年后,這項(xiàng)試驗(yàn)已經(jīng)演變成產(chǎn)業(yè),在郟縣這種中國的三、四線城市,以工廠、車間、質(zhì)檢員的形式落地生根。
劉洋鋒的公司是在縣城郊區(qū)一個(gè)農(nóng)民樓里成立的。第一批員工是初中剛畢業(yè)的學(xué)生、三十多歲在家?guī)Ш⒆拥膵D女、前手機(jī)店店員和前服裝店的銷售員們。已經(jīng)經(jīng)過了江蘇來的業(yè)務(wù)一道盤剝,算下來每拉一個(gè)框 3 分 2 厘錢,公司再抽成,到員工手里,變成了 2 分 5。
一個(gè)星期之后,所有人都已經(jīng)能熟練地在電腦上操作,這份工作的門檻幾乎為零。電腦從 20 臺擴(kuò)充到 40 臺、100 臺,一年后,已經(jīng)到了 500 多臺。員工都是本地人,馬萌利的村子今年來了 7 個(gè)人,她騎電瓶車載我回了一趟家,10 公里的村路,她小時(shí)候騎自行車,碾著泥坑,一上午都騎不到,現(xiàn)在變成水泥路,20 分鐘就到家了。馬萌利家剛貸款買了一臺哈弗 SUV,下雨天就拉著村里人一起去上班。
夏末天氣變涼,晚風(fēng)吹過小河和玉米地,葉子窸窸窣窣作響。家里 7 歲的兒子馬上要開學(xué),趴在空調(diào)房里看恐怖片,一見馬萌利回來,跳起來撲到了媽媽身上。
劉洋鋒最近天天忙到后半夜,直接在辦公室里睡了,一覺醒來,想起又忘了給兒子買書皮,頓時(shí)懊悔起來。他 1987 年出生,中專讀了一半就不念了,他學(xué)的電腦專業(yè),講了 3 年,才從電腦的起源講到怎么配置服務(wù)器。
2005 年,劉洋鋒跑到重慶的工地上開挖掘機(jī),一個(gè)月就能賺五千多塊錢。他買了個(gè)二手 IBM ThinkPad,拿著一個(gè)蛇皮袋子裝計(jì)算機(jī)教材、軟件雜志,走到哪兒帶到哪兒,晚上在宿舍里自學(xué)。此后,他在全國跑過飲料瓶推銷,在云南紅河賣過進(jìn)口高檔葡萄化肥,還去智利待了一個(gè)月。當(dāng)時(shí)有老板想把深圳華強(qiáng)北的山寨機(jī)推銷到南美去,讓他先學(xué)了一個(gè)月西班牙語,手機(jī)生意黃了,他唯一的收獲是記住了 hola (你好)和 gracias(謝謝)。
劉洋鋒回郟縣之前,還在珠海做過一段單片機(jī),用上了自己的計(jì)算機(jī)知識。小公司攢出來一臺自動化設(shè)備,能精確地拿起來、放下,專門給手機(jī)做 WiFi、主板測試,這正是馬萌利過去在流水線做的活兒。
單片機(jī)速度快,24 小時(shí)不眠不休,花幾萬塊買一臺,一個(gè) 10 人的流水線小組就全被替代掉了。而大公司做 AI 標(biāo)注的結(jié)果,也會是大規(guī)模替代人力。李開復(fù)曾撰文表達(dá)過對 AI 技術(shù)快速發(fā)展的擔(dān)憂,認(rèn)為這將導(dǎo)致社會結(jié)構(gòu)的洗牌,貧富分化加劇,很多人將面臨階層墜落的風(fēng)險(xiǎn),進(jìn)而喪失尊嚴(yán):
「這種轉(zhuǎn)變將為開發(fā)人工智能以及運(yùn)用人工智能的企業(yè)帶來大量利潤…… 我們由此將面臨兩種無法和諧共存的新情況:大量財(cái)富集中到極少數(shù)人手中,大批人員失業(yè)。」
但處于產(chǎn)業(yè)鏈末端的人,不思考這些問題。這離他們太遙遠(yuǎn)了。北京一位 AI 數(shù)據(jù)標(biāo)注公司老板告訴我,「工人只是打開人家的網(wǎng)頁,用人家的軟件,在上面把人家的數(shù)據(jù),按人家的格式給人家處理好,交給人家,公司接觸不了人工智能任何東西,這個(gè)數(shù)據(jù)自己也保留不了。」「我們沒有研發(fā)能力,純粹也就是一個(gè)(代工的)富士康。」
在郟縣,這還是個(gè)新興產(chǎn)物,今年 8 月,劉洋鋒在「郟縣之窗」公眾號上發(fā)了一篇招聘廣告,文章把 AI 標(biāo)注員的工作捧得很高:「在這個(gè)崗位上,其實(shí)你的一些想法就代表了人工智能的想法,人工智能會根據(jù)你加工的數(shù)據(jù)進(jìn)行深度學(xué)習(xí),從而實(shí)現(xiàn)智能化。」宣傳的月薪是 3000~8000 元(上不封頂,多勞多得)。
「這都是噱頭。」劉洋鋒很誠實(shí),「沒有人能拿到 8000,干得最好的能拿到 4000 多。」跟郟縣遍地「2500~3000 元」的招工廣告相比,這已經(jīng)比上不足比下有余了。這個(gè)廣告是劉洋鋒請朋友來寫的,微信號頭條的刊例價(jià)是 3000 塊,關(guān)系好,沒要錢。
前幾天,縣里有領(lǐng)導(dǎo)來公司參觀,饒有興致地讀起墻上的海報(bào):「千機(jī)數(shù)據(jù)服務(wù)于百度公司、阿里巴巴、京東、騰訊、滴滴等世界 500 強(qiáng)及行業(yè)獨(dú)角獸企業(yè)。」領(lǐng)導(dǎo)贊不絕口:你們這是高科技產(chǎn)業(yè)啊!人工智能!
劉洋鋒當(dāng)面也沒解釋,他覺得不解釋更好。
中國包攬冠軍
6 億美元,這是國內(nèi)一家 AI 獨(dú)角獸公司最近的 C 輪融資數(shù)額。國內(nèi) AI 市場這幾年一直在風(fēng)口上,所有你能想到的互聯(lián)網(wǎng)巨頭都在 AI 行業(yè)布局。李開復(fù)形容,這是經(jīng)濟(jì)上「有史以來最大的、難以打破的壟斷」。
數(shù)據(jù)標(biāo)注工廠,是人工智能產(chǎn)業(yè)體系里最末端的毛細(xì)血管,類似千機(jī)數(shù)據(jù)這樣的小公司都是在巨頭的夾縫里生活。劉洋鋒這一年跟巨頭們直接合作,現(xiàn)在拉一個(gè)框,員工收入 6 分起,最高能到 1 毛錢。具體價(jià)格取決于劉洋鋒競標(biāo)的報(bào)價(jià)。過去幾年里,行業(yè)默認(rèn)百度的活兒最好:結(jié)款快,1 號發(fā)過去,15 號可能錢就到賬了,很多小公司都把人押在百度上。
今年夏天,百度的任務(wù)突然大規(guī)模縮減,北京昌平一家公司的老板告訴我,他好不容易培養(yǎng)了 60 多名成熟工人,手最快的男孩 23 天就賺了一萬塊錢。結(jié)果涌進(jìn)來的同行太多,價(jià)格縮水,到今年任務(wù)突然少了,「一個(gè)月就 10 天有活兒,要給人開 30 天的工資,最后只能倒貼錢。」昌平老板徹底不做了。
劉洋鋒留了個(gè)心眼,最早合作的 Momenta、曠視等公司,他都沒中斷過,一直把員工分散在不同項(xiàng)目上,度過了這個(gè)危機(jī)。這包括忍耐一家賬期極長的知名公司,三四個(gè)月都回不來款,「你每次去問,對接的人都換了,人家管財(cái)務(wù)的人心情不好,還要訓(xùn)你兩句。」只能忍著,幾十萬的工資現(xiàn)在是創(chuàng)始人們自己墊付,劉洋鋒不讓我提這家公司的名字:「這篇稿子寧可你把我寫死,也別得罪人家。」
在北京的兩家公司,我看到員工們一直嚴(yán)肅地對著屏幕,手上噼里啪啦一刻不停,上廁所要嚴(yán)格地在時(shí)間表上做暫停,以便當(dāng)月計(jì)算工作效率。北京公司招人,月薪至少四五千元,其中一家公司專門去山東的職業(yè)學(xué)校招聘,要求學(xué)生每分鐘能打 100 字,一個(gè)班 40 多人考試,第一場就篩到 20 人。招聘老師在學(xué)校待了一周時(shí)間,發(fā)現(xiàn)一位成績排到前五的男生人很頑皮,每次打鬧都能看見他。臨走之前,老師在名單里把他劃掉了:這份工作不能要性格太活潑的人。
在郟縣,劉洋鋒的公司看起來就像個(gè)大網(wǎng)吧,沒有考試,只有 3 天試用期,辦公室至少有三臺音箱此起彼伏地放歌。實(shí)際上所有的電腦、沙發(fā),就是從網(wǎng)吧二手收購過來的,這種沙發(fā)坐久了腰不酸,中午還能放平了睡一覺,沙發(fā)原價(jià) 400 多,劉洋鋒去買的二手,還不到 100 塊。
劉洋鋒辦公室的沙發(fā)上總有員工跑過去睡覺。公司不用富士康那套標(biāo)準(zhǔn),劉洋鋒覺得反正租金和工資都比北京便宜,每人少干點(diǎn)兒,多招幾個(gè)人,也行。「北京用 20 個(gè)人完成的,我用 25 個(gè)也行,人少精神壓力大,出錯(cuò)率高,返工成本更高。」
北京公司招人,月薪至少四五千元,老板們喜歡中專、大專生,「素質(zhì)高」,能保證效率。而郟縣公司員工大多是初中、高中學(xué)歷,3 個(gè)創(chuàng)始人也都沒讀過大學(xué)。「中專生有傲骨,最多待三個(gè)月自己就覺得屈才了。」劉洋鋒說,就拉框本身來講,「眾生皆平等。」
這一年里,劉洋鋒頻繁接待從北京來的項(xiàng)目總監(jiān)、研究員們,其中很多都是清華、北大等名校畢業(yè)生。他們住在公司附近的賓館,前幾次,說好了 9 點(diǎn)見面,另一位創(chuàng)始人劉磊 8 點(diǎn)半就熱情地等到大堂,打電話要帶他們?nèi)コ责氿浢妫Y(jié)果聽出人家一肚子火,才意識到,這些總監(jiān)們還沒起床。「你們北京來的時(shí)間觀念強(qiáng),約好幾點(diǎn)是幾點(diǎn)」,現(xiàn)在他都改成了 8 點(diǎn) 55 再出現(xiàn)。
年輕的總監(jiān)們也不愛吃肉喝酒。公司招待去本地最著名的羊肉鍋,劉磊介紹,這是本地市領(lǐng)導(dǎo)最喜歡的餐廳。結(jié)果對著一桌子肉菜,有瘦削的理工男面露難色:我說的清淡,是吃點(diǎn)兒素菜就行了。
這些名校研究員們,都是 AI 行業(yè)市場爭奪的人才,職位最低的工程師年薪也在 30 萬~ 50 萬。劉洋鋒每次去甲方公司,滿眼都是年輕的理工男。他覺得學(xué)歷沒那么重要,「他們最厲害的是實(shí)習(xí)生,有大學(xué)生, 有些還是高中生。」提起幾位研發(fā)員,「你說他們一年能掙 100 萬嗎?」這個(gè)問題超出了大家的想象力。
9 月 9 日,2018 常見物體圖像識別競賽(COCO)在德國慕尼黑宣布結(jié)果,中國幾家團(tuán)隊(duì)包攬了所有冠軍。
其中一項(xiàng)比賽是,「COCO 的注釋包括 80 個(gè)類別對象的實(shí)例分割,91 個(gè)類別的物品分割,人物實(shí)例的關(guān)鍵點(diǎn)檢測,以及每個(gè)圖像都有 5 個(gè)圖像標(biāo)題(image captions)」。翻譯過來,就是考驗(yàn)計(jì)算機(jī)能否識別那些「垃圾桶」、「地毯」、「梯子(可以移動)」,千機(jī)數(shù)據(jù)的甲方公司拿到了第一名。
劉洋鋒轉(zhuǎn)發(fā)了這條消息,配文是:「祝賀……」
從去年開始,劉洋鋒每個(gè)月都要跑趟北京,去中關(guān)村、五道口談業(yè)務(wù)。今年他有一天突然想去清華大學(xué)轉(zhuǎn)轉(zhuǎn),背著雙肩包,一個(gè)人走到清華南門口,結(jié)果被攔下來了,保安看他不像學(xué)生,要求他出示身份證。
劉洋鋒沒掏,轉(zhuǎn)頭就走了。
人像換豆油
「通知:年齡在 18~50 周歲的,請前往薛店鎮(zhèn)三蘇路口南 50 米路西,免費(fèi)領(lǐng)取價(jià)值 58 元 5 升食用油一瓶,或 10 斤精品大米一袋!」
雄渾的男中音從音箱里傳出,在勁爆的背景音里反復(fù)召喚,15 秒就重復(fù)一次。
今年夏天,劉洋鋒的公司開始做人像數(shù)據(jù)采集。我去公司時(shí),外面大廳擺了幾組攝像頭,任何時(shí)間都能看見有人對著攝像頭,從左到右地?cái)[腦袋。
人像采集,也是給人工智能的訓(xùn)練搜集素材。今年,國內(nèi) AI 產(chǎn)業(yè)突然增大了人像采集的需求,大公司開始收集中國人在不同光線下的人像視頻——這些視頻相當(dāng)于眼下被標(biāo)注的圖片,只不過是動態(tài)的,它們也是未來被標(biāo)注的素材。
這變成了新商機(jī),劉洋鋒說,河南、云南,還有其他省的幾家公司,都在搶這個(gè)活兒。這樣的人像采集在一、二線城市幾乎無法操作——錄一個(gè)人至少要 45 分鐘,公司采購價(jià)為 100 元,刨去運(yùn)營成本,根本吸引不到志愿者。
在郟縣,這是另一套玩法:劉洋鋒的公司在縣城下面的薛店鎮(zhèn)也有個(gè)分公司,今天門口堆滿了成箱成箱的大米、豆油和衛(wèi)生紙,以免費(fèi)贈送的名義,吸引鎮(zhèn)上居民來做人像采集。
看到門口的豆油,有位快五十的寸頭大叔走了進(jìn)來。
「這是弄啥咧?」
「過來拍一下人像,就送大米,油也行。」
「干啥用的?」
「做智能門禁,你看有的寫字樓、學(xué)校、高檔社區(qū),人一過去門就刷開了。有的光線不足就刷不開,人家想解決這個(gè)問題。」
一說到門禁,大叔點(diǎn)點(diǎn)頭,表示明白了,一聽要四十多分鐘,又有點(diǎn)兒猶豫。
「轉(zhuǎn)一圈,個(gè)把小時(shí),領(lǐng)桶油多美咧?」「噫……」大叔覺得是這個(gè)理,領(lǐng)走了一張二維碼。
劉洋鋒、劉磊和另一位創(chuàng)始人李亞沛,對這一套農(nóng)村地推模式已經(jīng)極熟悉了。
2015 年,一家金融 App 急速融資,急需注冊用戶,那半年時(shí)間,他們各自都在做地推團(tuán)隊(duì),瘋狂地薅了互聯(lián)網(wǎng)金融一大筆羊毛。劉洋鋒當(dāng)時(shí)跑農(nóng)村,找鎮(zhèn)上的移動公司,以每條 0.5 分錢的價(jià)格群發(fā)短信,通知農(nóng)民們第二天去領(lǐng)免費(fèi)洗衣粉——注冊一個(gè)用戶送一包 5 斤裝洗衣粉,如果去鎮(zhèn)上,居民要求高,就變成一桶洗衣液。洗衣粉大多是「太漬」,真的汰漬 5 斤裝要三四十塊錢,這種山寨貨一車一車地進(jìn)貨,平均一包成本只要 6 塊錢,山寨的藍(lán)月亮洗衣液比「太漬」再貴 1 塊。
用這個(gè)辦法,幾個(gè)人跑過河南、安徽、山東,他們不去省會城市,也不去地級市,都是在縣城和村鎮(zhèn)做推廣。「其實(shí)(洗衣粉)農(nóng)民也都知道是假的,他們不在乎。這事兒確實(shí)放在城里,給出去 10 袋,也不一定辦得成。」
那也是幾個(gè)人第一次接觸到人臉識別。地推員工自帶智能手機(jī)能刷機(jī),連上 WiFi,把手機(jī)關(guān)機(jī)一下,再開機(jī),此前的信息全部清空,系統(tǒng)里顯示的手機(jī)型號就全變了。農(nóng)民輸入自己的身份證號,對著手機(jī)攝像頭拍了照,算確認(rèn)成功。注冊成功一個(gè)用戶,地推團(tuán)隊(duì)就能賺 60 塊錢獎金。「那時(shí)候利潤很高啊,一天隨便做做就是幾百人,多的時(shí)候一天能上萬啊。」
相比之下,現(xiàn)在的人像錄入不需要姓名和身份證,只要拍頭像視頻,要求簡單很多,但是劉洋鋒們能掙的錢也少了:100 塊收購價(jià),去掉給農(nóng)民的獎勵、自己的員工支出,平均每人身上只能賺 20。每天最多只能拍 50 個(gè)人,跟 APP 地推相比,這簡直是樁苦差事。
此時(shí)此刻,在薛店鎮(zhèn)這家分公司,一樓、二樓的每個(gè)房間都在拍著視頻。農(nóng)民們對著攝像頭,聽著員工的指令,「左——」「右——」「轉(zhuǎn)頭——」,擺動自己的腦袋。接著還要「摘下眼鏡」、「戴墨鏡」、「涂上口紅」…… 中年發(fā)福的婦女配合地戴上一個(gè)哈利波特式的圓框眼鏡,顯得格外滑稽。
每個(gè)人要在強(qiáng)光、弱光等不同場景下拍攝,排隊(duì)等待時(shí),有大媽直接在房間門口織起毛衣。他們的孩子們在樓下奔跑,下午開始人多了,加上 15 秒重復(fù)一次的「通知!」公司里嘈雜得像一個(gè)市場。
40 多分鐘后,寸頭大叔拍完了。他先領(lǐng)了一袋大米,又問,你這洗衣液咋領(lǐng)呢?
得知是拉一個(gè)人,送一瓶洗衣液后,不到 20 分鐘,大叔又回來了,帶了倆四十多歲的大姐。他興致勃勃地帶大姐們學(xué)動作,對著員工一起轉(zhuǎn)起脖子來。「哎喲,我不行。」一個(gè)大姐有頸椎病,轉(zhuǎn)到一半轉(zhuǎn)不動了。
大姐悻悻地站到一邊,白跑一趟,她不太高興。
前幾天在郟縣縣城里拍攝,每個(gè)錄入者能拿 50 塊錢現(xiàn)金。在薛店鎮(zhèn),50 塊變成了價(jià)格更低的油和米,劉洋鋒的解釋是,直接給錢,農(nóng)民會認(rèn)為他們是騙子。兩天后,他又告訴我一個(gè)原因:在鎮(zhèn)上他們有個(gè)合作伙伴要分成,對方負(fù)責(zé)拉人:「他在當(dāng)?shù)厥烊硕啵芏啻彘L、村支書都認(rèn)識,人家能用大喇叭廣播,幫我們找人。」
千機(jī)數(shù)據(jù)成立時(shí),3 個(gè)創(chuàng)始人預(yù)估,這個(gè)公司也許只能開三五年,5 年,就是想象中最長的限度了,但起碼現(xiàn)在能活下去。媒體上,每個(gè)人都在討論 AI 代替人工的可能性,在郟縣,短期內(nèi),拉框的工作還不會被機(jī)器替代。劉洋鋒說,他們除了人臉、車輛、3D 云圖、語音,還在錄入各種不同的樣本,在這些樣本里,「雨天、雪天、黑天、多云都不一樣,做無人駕駛的, 在不同地方的市政建設(shè)也不一樣。」
現(xiàn)在這些被采集的動態(tài)人像,未來怎么標(biāo)注、由誰標(biāo)注,劉洋鋒也不知道。他們永遠(yuǎn)是任務(wù)的被動承接方,那些發(fā)過來的圖片包,信息都是被抽亂、打散的,千機(jī)數(shù)據(jù)的每臺電腦都沒有硬盤,整個(gè)辦公室連著一塊服務(wù)器,標(biāo)注好直接上傳,沒法用 U 盤等拷貝出來。
最后一天采訪時(shí),攝影師想讓劉洋鋒的臉出現(xiàn)在屏幕上,也讓員工上去點(diǎn)幾個(gè)點(diǎn)。但被告知辦不到:所有的圖片都是打包從北京發(fā)過來的,他沒有權(quán)限在里面插入新圖片。
這一天,薛店鎮(zhèn)分公司只采集了 37 個(gè)人像,女的 20 個(gè),男的 17 個(gè),并不算多。
最后幾個(gè)錄入者臨走時(shí),被一名員工叫住:微信幫我們發(fā)點(diǎn)兒廣告吧,來人了就給洗衣液。
被叫住的大叔愣住了,他不知道怎么發(fā)。員工拿過他的手機(jī),加微信好友,直接把廣告詞發(fā)過去。打開他的朋友圈,粘貼在了里面:
「重要通知,×× 公司近期在薛店鎮(zhèn)進(jìn)行人臉采集活動。參與即可獲得 5 升品牌食用油或 10 斤精品大米一袋。用途:采集數(shù)據(jù)均為科研使用,智能門鎖、小區(qū)門禁等。注:本活動不涉及個(gè)人隱私,不用真實(shí)姓名,不用身份證,請各位朋友放心大膽前來。名額、時(shí)間有限,先到先得!……」
大叔的手機(jī)字號調(diào)成了最大,滿滿一屏幕的字,成了他的第一條朋友圈。
他拿回手機(jī),看了一眼,并沒在乎內(nèi)容是什么,抱起一桶豆油,回家了。
【來源:愛范兒】