歡迎來到114ic交易網!登錄免費注冊 加為收藏
型號索引電子元器件現貨庫存IC熱賣
緊急采購日常采購采購商名錄
行業新聞經營管理電子展會人才招聘精選文摘企業新聞行業標準LED新聞
IC生產廠商電子縮略語封裝大全IC替換晶體管資料PDF資料電路圖

中國AI產業鏈底端眾生相:艱難生存的"人工"團隊

日期:2018/10/22 9:16:54

從人工智能發展高地北京到河南鄭州,只需要兩個小時的高鐵,那里有中國最大的代工廠富士康。再從鄭州火車站出發,半小時車程,到達一棟不起眼的寫字樓,打開一扇沒有任何標志的大門,就是目前河南最大的人工智能數據標注工廠翊澳數據的總部。

聚集在北京的人工智能公司里,隨處可見人臉識別機器以及實時的大數據熱點圖。但這家數據工廠里,并沒有任何智能的樣子,也沒有普通工廠里的流水線,更像是一間網吧——裝修簡單,幾十臺電腦依次排開。

正值午休時間,一半的電腦前面空空如也,還有數十名員工坐在電腦前,或是吃著打包來的午飯,或是掏出手機打游戲,也有部分標注員還在處理一張張模糊或清晰的照片。

數據標注行業流行著一句話,"有多少智能,就有多少人工。"目前AI算法能學習的數據,必須通過人力逐一標注,這些人力為AI產業提供養料,這是AI金字塔的基礎,處于最底層。

此前,一些數據標注工廠被冠以"血汗工廠"的名號,為了應對龐大的數據標注需求,標注員們必須加班加點盯著電腦屏幕,夜以繼日地重復枯燥的工作,但眼前的這個工廠里,似乎有些輕閑。

"聽說AI很火,我們也想參與進來。"翊澳數據總經理靳建偉對《財經》記者說。

靳建偉經歷豐富,善于追逐潮流。微信最火的時候他做過微信推廣,拼多多起來后在上面賣過襪子,還在關注短視頻營銷行業,"你知道抖音推廣吧?就是一個后臺可以操縱一百個賬號那種,據說很賺錢。"

大多數AI初創公司還處于依靠融資發展的階段,但數據標注產業更像傳統行業,拿一單數據結一單錢,江湖中流傳的傳說是,這個領域已經創造了不少"一夜暴富"的故事。

被這樣的故事吸引,不少像靳建偉一樣的人加入了這場淘金游戲,但現實給了他們當頭一棒。

2018年,河南省的數據標注公司死掉了一大半,剩下的幾乎都在艱難求生,接受《財經》記者采訪時,靳建偉已經兩個多月沒有接到新的訂單,工廠員工從600人,銳減至200人,他覺得自己恐怕需要開始找下一個風口了。


撞進了AI圈

靳建偉今年28歲,2017年以前,他甚至沒聽說過"數據標注"這個詞。

他并不懂AI算法和技術,也不太清楚AI到底能解決哪些問題,2017年,他偶然聽說做數據標注能賺錢,當時他正從事證券銷售業務,由于沒有資質,公司被關停,他找到一個賣保健品的朋友,共同成立了這家數據標注公司。

2017年,中國AI創業開始達到頂點。對數據標注的需求也迅速爆棚。河南是人口大省,數百家數據標注公司在此誕生。

靳建偉算了一筆賬,一個成熟的標注員,月產值能做到7000元,除去3000元的工資和質檢、場地設備等費用,公司能賺1500元。

"那我不斷招人就行,如果招100個人,一個月就賺15萬元。"靳建偉說道,"怎么看都覺得這個生意靠譜。"

有電腦、有場地,再迅速招一批沒有學歷、工作經驗要求的數據標注員,就可以迅速上手。

深度學習的關鍵在于大量的數據訓練,數據訓練之前,必須對這些數據進行明確的標注。例如,機器需要識別斑馬線,就必須提供大量標注了斑馬線的數據來進行學習,數據量足夠大時,機器就可以識別出任何角度的斑馬線。

這意味著,在某種程度上,AI算法的優化,取決于數據標注的質量,而把控這些質量的,是完全不懂AI技術的一群人。

一名沒有任何經驗的標注員,通過半天的培訓即可開工,一兩個月之后可變成熟練工,一天就可以完成1500張-2000張圖片的標注。

需要標注的圖片數據從客戶提供的數據處理平臺上打包下載,根據不同的需求進行標注,常見的包括物體識別和人臉識別,物體識別主要是"畫框",人臉識別則是"打點"。

完成后會進行一到兩道的質量檢測程序,來確保標識準確率,合格后會重新傳送到客戶的數據平臺上。

然后,這些數據會被應用到自動駕駛、AI安防、智能身份認證等新興應用領域。

依靠這些應用,人工智能公司在資本市場頗受追捧,投中研究院發布的數據顯示,2018年上半年,進入商業化階段的中國人工智能行業已經獲得超過400億元人民幣的融資。

這400億元的資金,僅有極少部分流入了數據標注行業。商業信息服務平臺企名片收錄的標簽為"數據標注"的公司共有15家,2018年,這15家公司共完成6筆融資,單筆融資金額約為1000萬元人民幣左右,總計不超過1億元人民幣。

靳建偉還沒考慮過融資這件事,他聽說北京的AI公司都在以億為單位進行融資,但他的思維和之前的數次創業沒有區別,找客戶,做業務,能賺錢,才是應該做的事情。

單打獨斗在當下的AI圈很難混得開。由于完全沒有相關行業經驗,也沒有資本加持,一開始靳建偉只能接二手、甚至三手訂單,也即外包服務。"一些有渠道的公司接了訂單,自己不做,或者自己做不過來,就分發給我們做,他們再從中間收取差價。"

與很多行業一樣,渠道是核心競爭力,中間商們不需要耗費太多的人力物力,就能賺取可觀的利潤,底層的工廠們,加班加點,只能勉強維持經營。

這樣下去可不行。在熟悉了行業之后,靳建偉開始主動出擊,拓展渠道,試圖繞過中間商。從知名的頭部AI公司開始,到所有他能找到聯系方式的中小AI企業,他問了個遍。得到的回應要么是"不需要",要么是"我們已經有了自己的數據標注團隊",更多的是石沉大海,沒有回音。

"人家上來就問你,以前做過哪些項目,我說不上來。"他很無奈。

類似商湯科技、科大訊飛這樣的頭部AI公司,都會自建數據標注團隊,既方便管理,也能更好地理解需求。

但確實也有大量AI公司,由于團隊人數、資金成本有限,有外包數據標注的需求,但大部分都會通過熟悉的渠道尋找標注團隊,或者和大平臺合作,例如百度眾測平臺。

百度眾測是百度旗下的一個類似眾包模式的數據平臺,2014年在百度世界大會上正式推出,平臺上會分發各類任務,在行業內稱為"放題",包括數據采集、圖片標注、文本標注等。

百度在中國人工智能領域起步早,渠道輻射廣,眾測平臺上每天都有大量的數據標注需求,并且開放注冊,這讓靳建偉看到了機會。

當然了,當時他還沒有意識到,更大的困難在等待著他。

飽一頓,饑一頓

距離鄭州車程兩個小時的河南新鄉輝縣,甚至找不到一棟商用寫字樓。從馬路邊一個毫不起眼的門洞上樓,就是翊澳在輝縣的工廠,也是該公司目前規模最大的一個廠。

兩層樓,500平方米的空間里,劃分出了三片工作區域,目前僅有一片區域開工運轉。

翊澳下面類似這樣的分廠有十幾個,分布在河南省內各個縣市里。

由于百度眾測平臺提供了訂單來源,翊澳幾乎是在一夜之間發展成這樣的規模,靳建偉拉來以前一起做證券銷售的同事們,讓他們回到各自的老家成立分廠,并擔任負責人。"之前一起做過事,已經有信任關系,下面這些地方場地租金更便宜,員工工資也低,更省成本。"

百度眾測給了翊澳數據第一桶金,但同時也讓靳建偉認識到這個行業的慘烈。

他回憶,去年百度眾測上的"題"特別豐富,大量數據標注團隊都緊緊盯著,僧多粥少,百度眾測有絕對的權力來制定游戲規則。

想要拿到"做題"資格,必須經過數輪考核,比賽做題的速度和準確度,每一輪考核后,都有團隊被淘汰出局,最后僅剩十支團隊能進入百度眾測的名單,每隔一段時間,就會有末位淘汰,后三名的團隊會被替換掉。

這一過程堪比高考,工廠的員工大多學歷不高,以專科生為主,但為了賺錢,他們鉚足了勁。"那一段時間我們天天刷題庫,練習,這個事情就是熟能生巧,我們單獨拉了一支20人的團隊,不干別的,就應付這個考試,來來回回折騰了好幾個月,終于考上了。"

自去年加入百度眾測平臺開始,翊澳數據就一直保持在前十名的位置,這也讓他們真的賺到了錢。"從去年10月到今年上半年,百度一共給我們結了120萬元。"靳建偉說道。

但他仍有怨言,在他和一些同行看來,百度也不太地道。前期耗費幾個月時間的考試,似乎是在做無償勞動,"那些考試的題,其實就是真實的客戶需求,我們做完了,百度就拿去賣了"。

只要能賺錢,前期免費付出一些也未嘗不可。相比其他訂單來源,百度眾測給的單價更高,平臺上的訂單價格是按照每個標注員每天8小時工作量測算,正常情況下8小時能標注1200個數據框,價格是240元人民幣。

為了能夠擴大收入,靳建偉要求員工一天能標注2000個數據框,"做得越多,賺得越多"。

依靠百度眾測,靳建偉嘗到了甜頭。但好景不長,百度眾測平臺上的單越來越少,甚至出現長時間的"斷糧"情況。

目前整個AI行業都處于起步階段,數據與算法交替磨合前進,需求在不斷變化,對于數據標注的需求也是周期性的,并非源源不斷。例如,2017年,數據標注行業就很少接到車牌標注的訂單,因為標注量已經足夠多,算法需要時間去慢慢消化,并落實應用,然后再發現其他數據需求。

突然無題可做,這對于當時已經有數百人規模的翊澳數據來說,壓力巨大,每天員工的工資就是一筆不小的開銷。

為了維持運轉,他只能再去找新客戶,他們曾經接過自動駕駛明星公司Momenta的二手訂單,他降低價格,說服了Momenta直接給訂單,繞開了中間商。

自動駕駛企業對數據量的要求非常大,路況信息龐雜,采集到路況圖片后,需要人工對路牌、障礙物、交通信號標志等多種信息進行標注。

Momenta成立兩年時間,已經完成5輪融資,融資金額超過1億美元。在同行看來,接到這樣的明星客戶,意味著能在業內樹立口碑,且融資能力強,不缺錢。

但Momenta給到翊澳數據的標注價格非常低,幾乎只有百度眾測的30%,他們完全賺不到錢。"那也沒辦法,還是要做,不然我手里這么多員工,吃什么?"

采訪進行到一半時,靳建偉突然接到了百度眾測打來的電話,過去兩個月,他多次試圖聯系百度眾測平臺,但得到的回應都很冷淡,而這一次,對方告訴他,馬上平臺上會放題,讓他提前做好準備。

"其實我有好幾次都想放棄,每次一冒出放棄的念頭,就有消息說數據馬上要來了。"

這個消息讓他既欣喜又糾結,百度眾測一旦放題,意味著收入可以很快跟上,但他現有的團隊很難保證同時兼顧百度和Momenta兩頭,雖然出價低,但Momenta是他唯一的標桿客戶,也有必要長期維系。

距離翊澳數據總部幾十公里之外,是富士康的鄭州園區,員工數量超過25萬人,靳建偉曾經的夢想是做出一家人工智能領域的富士康,但現在,他發現這個夢想有些遙不可及。

隨著AI產業的興起,各行各業都有AI化的需求,也進一步刺激了數據標注行業的發展,翊澳數據這樣的數據工廠只是其中一環,AI公司、數據標注平臺、中介、數據工廠,甚至包括個人,共同組成了這一條產業鏈。

其中,中介們最為活躍。

除了Momenta,在靳建偉尋求出路的過程中,北京數據標注初創公司星塵數據主動聯系了他,也是唯一一家主動找上門,并能提供訂單的公司。

星塵數據位于北京三里屯,2018年1月完成1000萬元人民幣的Pre-A輪融資,公司運營副總裁商宇通過百度眾測平臺發現了翊澳。"他們一直保持在平臺的前幾名,說明標注質量有保障。"商宇接受《財經》記者采訪時說道。

與翊澳數據一樣,星塵數據的辦公室也找不到任何標志,創始團隊大多有美國工作背景,他們像硅谷的初創公司一樣,十幾名員工擠在一起,整個公司看起來還沒有靳建偉個人辦公室大。

但他們比靳建偉更了解這個行業。

"我們想做的其實是一個數據標注平臺,"商宇說,"能夠對接需求方和標注團隊,以及有時間和余力做標注的個人,就像是數據標注里的滴滴。"

平臺是長期目標,短期內,星塵做的是中介的工作,他們去競標訂單,然后找到工廠承接。

但大家都處于摸著石頭過河的程度,星塵斷續給了翊澳一些小訂單,怎么定價,是雙方都不太清楚的問題。

從鄭州去往輝縣的路上,靳建偉收到星塵發來的消息,稱他們準備去競標一項數據采集的單子,讓靳建偉報個價,他們拿著這個價格去競標。

"我怎么知道應該報什么價格?"靳建偉有些茫然,他沒做過數據采集的工作,但是他缺訂單,兩小時的車程中,他一直在糾結報價的問題。"50?30?要不然報高一點讓他們砍價?但是萬一覺得太貴把我們排除了怎么辦?"

相比他們的迷茫與矛盾,博雅立方走的是另外一條路線——提供定制化的數據標注服務。

數據服務提供商博雅立方是中昌數據(600242.SH)旗下品牌,主要業務就是數據標注,團隊目前超過1000人。

博雅立方數據服務事業部總經理王馨比靳建偉更早看到了機會,2012年,她開始做搜索引擎和輸入法的語量庫和知識庫。"你在網上搜索資料,和語音識別、圖像識別一樣,都是機器交互,也就需要不斷地給機器灌輸信息來實現。"

AI爆發后,王馨也轉型到數據標注領域,除了簡單的圖像數據標注,他們還做難度更高的語音數據標注,以及專業性更強的細分行業數據標注,如醫療、法律等。

不過,AI公司通常不會只找一家數據標注公司提供服務,將標注需求拆分給多個團隊能夠更好地降低成本。這一過程基本通過招投標的方式來進行,客戶主要考察過往經驗,完成訂單所需時間,以及單價。

在全行業都缺乏經驗時,完成訂單的效率和單價就成為主要考核因素,靈活的小團隊們在這兩點上,優勢顯得更大。"想要找人來外包訂單,快速完成,并不困難。"靳建偉表示,"你在網上發個招聘信息,一天之內會有100家接不到活的團隊找上門。"

價格方面,小團隊也更"狠心",王馨就多次在招投標環節遇到開出不合理低價的小團隊,"他們更想要的是客戶案例積累。"

環環相扣的數據標注行業像是一片擠滿了鯉魚的池塘,偶爾一把魚食撒下來,會被不擇手段地立刻分食干凈,然后餓著肚子等待下一場競爭。

快要消失的圍城?

過去幾個月,靳建偉看著周圍的同行一個個開始轉型、退場,每天都處于焦慮狀態中。

他熟悉的一個同行,由于找不到標注的訂單,接了一份豬臉數據采集的工作,在鄉下找豬圈拍照,三天時間收入2000元。

"我也想好了,不能這樣無限地砸錢進去,我的底線是再投入100萬元,如果還是這樣的情況,就放棄。"他說。

數據標注行業越來越像一個圍城,城中人痛苦不堪,找不到出路,城外人認為這里遍地黃金,會誕生下一個富士康。

在中國政府大力支持AI產業發展的政策環境之下,不少地方政府都通過各項優惠政策,吸引AI公司落戶,但數據標注行業似乎是一塊被忽視的死角。

接受《財經》記者采訪的數據標注相關團隊都表示,目前他們沒有發現任何相關的優惠政策。

沒有政策優惠,也幾乎沒有任何壁壘,數據標注只能存活于產業鏈底端,壓價情況嚴重,生存艱難。大部分時候,數據標注團隊都會面臨兩個選擇——要么無訂單可做,要么接受虧本價。

由于業務的不確定性,大量小型數據標注團隊都是有活就干、無活解散,這也導致標注質量無法得到有效保證。

中國信息通信研究院在今年9月發布的《2018年人工智能發展白皮書》中表示,在數據層面,主要存在流通不暢、數據質量良莠不齊和關鍵數據集缺失等問題,尤其是數據標注主要通過外包形式,勞動力水平決定了產出的標注數據質量。

多位接受《財經》記者采訪的AI初創公司創始人表示,他們接觸過的數據標注團隊質量良莠不齊。"那些數據標注團隊能做到的,我們自己也能做,可能還能做得更好,為什么要花這個錢?"其中一位創始人說道。

在商宇看來,沒有技術壁壘的工作,完全可以通過平臺眾包模式,分發給個人來做,"這樣效率更高"。

數據標注眾包模式最早出現在美國,2005年,亞馬遜推出勞務眾包平臺(Amazon Mechanical Turk),初衷是為了解決內需——管理庫存、完成圖片和產品分類、翻譯文本、將語音或者圖片轉錄成文本等工作,隨后平臺漸漸對外開放。截至2017年底,該平臺注冊用戶量累計超過50萬。

亞馬遜眾包平臺的一個標志性的成績是幫助斯坦福人工智能實驗室主管李飛飛完成了ImageNet的建立,ImageNet目前擁有超過1400萬被分類的圖片,大部分由該眾包平臺上5萬名用戶耗時兩年完成。

目前在中國,還沒有面向個人的眾包數據標注平臺,百度眾測官方平臺僅對企業開放。

一個現實的問題是,眾包模式如何保證質量?數據標準的準確度從95%提升到96%,需要團隊多花費3倍的時間。"很多時候,由于一點細微的問題,整個訂單都要重新返工。"靳建偉說道。

質量問題也是王馨認為眾包模式現階段并不可行的主要原因。

AI在行業落地時,屢遭困難,很大一個原因在于傳統行業與AI之間的隔閡仍然明顯。博雅立方作為數據標注行業里的老牌公司,同時又有上市母公司的背景,吸引了不少想要進行AI化改造的傳統企業。

這些公司很多仍然不清楚自己真正的需求是什么,為此,博雅立方組建了一支專業化的前端團隊,這些人來自于傳統行業或是AI行業,在前期就會花費大量的時間進行溝通交流,來明確應該采集哪些數據,應該做哪些維度的標注。"這些都是眾包模式無法提供的服務。"王馨說,"當然我們的價格也會更高。"

以目前行業壓價情況來看,有能力做到深度、定制化服務的團隊并不多,另一方面,大部分數據標注需求,還處于相對基礎的水平,對于還未能通過AI盈利的大部分企業來說,也不愿意在數據標注環節,支付稍高的價格。

AI是否會讓更多人失業,一直是被討論的焦點。國際貨幣基金組織的一份報告稱,包括AI在內的新興科技將讓全球30個國家和地區的2600萬份工作消失。科技進步同時也創造了許多新的就業機會,數據標注就是一個由于人工智能發展而誕生的新行業。

在缺乏行業標準、發展混亂這些現有問題之下,數據標注行業面臨的最大隱患是,未來AI的發展可能不再需要這一環節。

2018年10月10日,中國最大的科技公司華為發布了AI戰略,華為輪值董事長徐直軍在臺上提到,數據標注師這樣的職業很有可能被顛覆,華為要做的改變是提升AI自身的自動化水平,比如在數據標注、數據獲取、特征提取、模型設計和訓練等環節實現自動化或半自動化。

沒有"人工"就沒有"智能",這一幕很可能只是人工智能產業發展史上的短暫一幕。