天天PK10

  1. 創業頭條
  2. 前沿領域
  3. 人工智能
  4. 正文

AI的數據、算法、算力“輪流坐莊”,NLP到了“數據為王”的時代

 2020-05-08 18:18  來源:A5專欄    智能相對論的個人主頁

 

工作人員齊整坐好,每個人都對著電腦全神貫注,一件又一件的“東西”在眼前劃過,經過標準化處理就轉到下一流程……這實際上是人工智能行業里的數據標注辦公區一角。

由于深度學習的研究方向,人力密集型的數據標注工作是推進人工智能技術落地的重要環節之一。

很長一段時間以來,在過往AI的發展中數據的采集與標注行業沒有過多地被關注,畢竟,與算法、算力這些高大上的東西相比,AI數據的生產總帶著那么幾分與AI技術的“科技感”截然不同的形象。

然而,隨著AI的發展走向縱深,更多人發現這是一個誤解,AI數據產業正在向著高專業化、高質量化 的方向蓬勃發展。

根據2018年智研發布的《2019-2025年中國數據標注與審核行業市場專項分析研究及投資前景預測報告》,2018年該行業市場規模已達到52.55億元,2020年市場規模有望突破百億。有行業人士估計AI項目中會有10%的資金用于數據的采集和標記,2020年,數據標注行業最終市場規模將達到150億。

而分享市場的,既有BAT、京東等互聯網巨頭,也有云測數據這種專注于高質量交付的專業化數據平臺。

龐大的前景下,數據采集與標注也可以分NLP(自然語音處理)、CV(計算機視覺)等幾個部分,隨著數據需求量的增大、對數據質量要求的提高,其中的NLP越來越成為“硬骨頭”,AI數據產業終將面臨它帶來的難題,也承襲這種難題下空出的市場空間。

AI的數據、算法和算力“輪流坐莊”,NLP到了“數據為王”的時代

芯片制程以及大規模并聯計算技術的發展,使得算力快速提升后,AI能力的提升主要集中到了算法和數據上(算力提升當然還有價值,只是相對價值那么明顯了,例如不可能對一個物聯網終端設備有太多的算力設定要求)。

這方面,多年以來,人工智能技術都呈現“輪流坐莊”的螺旋提升關系:

算法突破后,可容納的數據計算量往往變得很大,所以會迎來一波數據需求的高潮;而當AI數據通過某些方式達到一個新的程度時,原來的算法又“不夠了”,需要提升。

2018年11月,Google AI團隊推出劃時代的BERT模型,在NLP業內引起巨大反響,認為是NLP領域里程碑式的進步,地位類似于更早期出現的Resnet相對于CV的價值。

以BERT為主的算法體系開始在AI領域大放異彩,從那時起,數據的重要性排在了NLP的首位。

天天PK10加上兩個方面的因素,這等于把NLP數據采集與標注推到了更有挑戰的位置上。

一個因素,是NLP本身相對CV在AI數據方面的要求就更復雜。

CV是“感知型”AI,在數據方面有Ground Truth(近似理解為標準答案)天天PK10 ,例如在一個圖片中,車、人、車道線等是什么就是什么,在采集和標注時很難出現“感知錯誤”(圖片來源:云測數據)

而NLP是“認知”型AI,依賴人的理解不同產生不同的意義,表達出各種需要揣測的意圖,Ground Truth是主觀的。

例如,“這房間就是個烤箱”可能是說房間的布局不好,但更有可能說的是里邊太熱。人類語言更富魅力的“言有盡而意無窮”的特點,應用于AI時,需要被多方位、深度探索。

另一個因素,是AI數據的價值整體上由“飼料”到“奶粉”,對NLP而言這更有挑戰。

大部分算法在擁有足夠多常規標注數據的情況下,能夠將識別準確率提升到95%,而商業化落地的需求現在顯然不止于此,精細化、場景化、高質量的數據成為關鍵點,從95% 再提升到99% 甚至99.9%需要大量高質量的標注數據,它們成為制約模型和算法突破瓶頸的關鍵指標。

天天PK10但是,正如云測數據總經理賈宇航所言,“圖像采標有很強的規則性,按照規范化的指導文檔工作即可,但NLP數據對應的是語言的豐富性,需要結合上下文等背景去理解和處理。”在高位提升這件事上,NLP數據更難。

天天PK10例如,在訂機票這個看似簡單的AI對話場景中,想訂票的人會有多種表達,“有去上海的航班么”,“要出差,幫我查下機票”,“查下航班,下周二出發去上海”……自然語言有無窮多的組合表現出這個意圖,AI要“認得”它們,就需要大量高質量的數據的訓練。

由此,我們再來理解商業機會。

數據采集與標注的公司有很多,從巨頭的“副業”到AI數據專業化平臺,總體而言主要玩家如圖所示:

天天PK10除此之外,更多中小玩家甚至幾十人的草臺班子數不勝數。在中國,目前全國從事數據標注業務的公司約有幾百家,全職的數據標注從業者有約20萬人,兼職數據標注從業者有約100萬人。

天天PK10易入門、難精通,而上述兩大因素決定NLP數據面臨巨大的挑戰,做得好的就更少。

在數據“坐莊”NLP的大背景下,空出了大量的商業機會,而客觀上的高要求阻卻了大量低門檻入場的玩家,NLP數據相對于CV更像一個藍海。

打破單純“體力活”標簽,NLP數據采集與標注從四個方面自我演進

天天PK10有機會就總有人會進場,不久前,中國人工智能高峰論發布了中國人工智能科技服務商50強,既有商湯、曠視這種明星企業,也出現了榜單內唯一的AI數據服務商云測數據,這顯示AI數據正在進入“主流圈”,在藍海中嘗試跑出獨角獸企業。

當然,前提是平臺能夠解決好NLP數據的痛點問題。

天天PK10事實上,CV的“感知”需求使得“體力活”可能就能夠勝任大多數據生產工作(誰不認識一輛車、一個人呢),而“認知”的NLP數據要突圍,只是“體力活”早已經不夠。

至少目前來看,行業玩家在四個方面有所動作,或正在解決NLP數據痛點問題。

1、業務模式,用“定制化”迎合商業落地期的NLP

曾有媒體向Google工程師提起M-Turk的時候,他表示“我們不敢用Turk標注”,因為回收的數據良莠不齊。

天天PK10眾包模式(在公開平臺發布任務,自由申領)是曾經的AI數據產業主流,擁有數據豐富性和多樣性的優勢,不過數據質量比較難以把控。在數據精細化要求的今天,很多需求方都轉向了“定制化”(一對一,以項目制的方式完成交辦的數據任務)服務模式。

天天PK10例如,云測數據的“定制化”服務模式,跟的就是需求方復雜、精深而個性化的數據要求。具體到NLP,在數據采集上滿足特定人物(老人、婦女、小孩)、特定場景(家居、辦公、商業等)、不同方言的聲音/文本數據采集;在數據標注上進行需求的對接、理解清楚場景化要求再分發盡量具體的規范指導(同樣一句話在不同交流目的中可能需要標注不同的內容,例如“我沒錢”在信貸服務中意味著潛在客戶,在理財服務中則表達拒絕的態度)。

當然,眾包模式也有它的優點,能夠輕量化承載大量相對簡單的數據需求,而場景化的定制模式則更專業,主要依靠自有員工和基地 ,像云測數據就在華東、華南、華北擁有自建標注基地,這種玩法顯然更適合匹配客單價更高的場景化、定制化需求,NLP是典型。

2、管理流程,從“粗放制造”到“精益制造”

天天PK10既然數據采集與標注很像是工廠的流水線,那么如果要提升數據的精準度,其實就如同“制造業”升級那樣需要進行“粗放制造”到“精益制造”的轉變,首要體現在管理流程的優化上。

無論是從平臺接取任務的眾包團隊,還是直接對接需求方的定制化服務平臺,至少,草臺班子式的做法已經不適合NLP對數據的要求。

高精準度、高效率,都依賴管理流程的優化,以云測數據為例,具體做法包括這幾個大方向:

天天PK10標注、審核、抽檢的層層把關:標注人員的結果交由另一批人進行審核,打回不合格的,最終再由質檢進行抽檢,大體如此,可能步驟更復雜;

天天PK10人才類型的基礎分類:文本、語音、圖像標注人員不相互混用;

擅長場景的優先任務派發:在同等條件下,擅長對應場景的人優先派發給任務。

天天PK10例會制度:如同精細化管理的制造業一樣,早會、晚會、周會、月會,總結問題、提醒改進。

天天PK10……

而無論如何,管理流程的事,說得再多,日常工作的落實才是最重要的。

3、職業技能,專業培訓擺脫“低水平重復”

天天PK10“不要門檻”意味著更低的價值,在人員個人能力上,NLP在逐漸拋棄那些“無門檻”入局的人,尤其是在特定的場景需求下。

天天PK10例如,這是一個非常簡單的NLP數據標注實例:

它的需求可能只有初中語文即可。但是,NLP的數據需求早已超過這樣的標注太多。

天天PK10例如,客服詢問用戶是否購買此商品時,“我要和家人商量一下”、“我會考慮”、“我現在不方便,你一會兒再打過來”,標注人員得準確標注出暫不購買,暫不考慮,拒絕購買或者興趣較大等多種意圖。

天天PK10一方面,這依賴于平臺進行的場景深挖,這也是為什么云測數據智能客服單個場景的意圖標注就分為10-20個大類、上百個子類,根據業務需求可能還會有進一步的標注細分,如此數據標注可以更細化、直達需求。

另一方面,這繞不開人員能力的持續培訓,把“干體力”的標注工人轉化成懂一些專業的業務人員,典型的如云測數據在金融服務領域通過幾個月的專業培訓,培養出銷售人員視角去揣測用戶話語中的意圖。

舉例來看,在客服溝通中,用戶回饋“我在開車”這短短的一個語料數據,可能需要標記出“有車一族”、“司機”、“沒有明顯拒絕”、“可能有興趣”等多個標注給NLP算法,按云測數據自己的說法,其培訓達到的目標,是讓標注員工達到成為專業員工的水準。

天天PK10顯然,在NLP標注數據的初期階段將各大金融機構的AI客服機器人訓練到大致相當的初級認知智能水平后,再進行提升、提高銷售轉化或者服務滿意度,都需要質量更高、針對特定需求更強的NLP標注數據。

天天PK10值得一提的是,在NLP領域不是所有標注都能通過人員培訓來解決,醫療、法律等過于專業的領域可能還是依賴專家標注(邀請醫生、律師等參與標注),那是一個更復雜的故事了。

4、工具使用,持續加碼“便捷化”

天天PK10工欲善其事必先利其器,NLP的標注雖然不像CV有很多空間維度的數據需求,但工具提升便捷度進而提升標準效率和準確性的價值仍然不可小覷。

天天PK10這方面,巨頭的腳步更早,在國外,Google Fluid Annotation一度是NLP標注“最好使”的工具,國內,大廠和專業平臺的工具也被廣泛使用,云測數據在工具上的創新優勢很明顯。

總體而言,標注工具適合自己的才是最好的。這種根據定制化需求開發貼合實際需要的數據工具對場景化數據的生產,發揮著重要作用。

無論如何,持續加碼“便捷化”,是一個不會停止的過程。

NLP數據產業的機會,將會是誰坐莊?

天天PK10在AI領域,雖然有大廠走在前列,但市場并沒有被巨頭壟斷,中型AI平臺也常常嶄露頭角成為主角。以AI數據服務領域為例,像云測數據這種專注于企業服務的第三方獨立平臺,以客戶為中心的企業基因,一直貫穿在數據交付的始終。

一個典型的表現是,高精確度的NLP數據需要以企業服務的心態與客戶仔細對接需求天天PK10 ,例如,用戶需求的場景是什么,如果是訂票,AI問答應該主要導向訂票,對應的NLP數據也要往這個方向去標注。

天天PK10這一過程中需要數據服務人員對需求進行拆解、預判甚至提前給出建議,與客戶反復溝通確認達成一致后,才能真正地去作業。大廠偏重于技術架構、前沿技術開發、云服務器中心大規模并發能力等建設,很難俯下身好好完成這件事,這時候,AI數據專業化平臺更有優勢。

此外,影響競爭格局走向的還有數據服務的安全性。

在數據采集與標注行業,復制一份數據在技術上非常簡單,也能節省大量的人力和運營成本,但給客戶帶來的損失卻不小(尤其是被競爭對手拿到),保證數據隱私性和安全性,在AI激烈的競爭環境下幾乎成為某些客戶的首要決策標準。

天天PK10總而言之,高專業度、高精準度、高效率、強安全才能贏得AI數據客戶尤其是NLP數據客戶的選擇,不論巨頭還是AI數據專業化平臺在行業爆發式增長的關口都在努力,落實和推進了諸多動作。NLP數據產業正處在藍海,一個不會由巨頭坐莊的藍海。

此內容為【智能相對論】原創,僅代表個人觀點,未經授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。

部分圖片來自網絡,且未核實版權歸屬,不作為商業用途,如有侵犯,請作者與我們聯系。

文 | 李永華

來源 | 智能相對論(ID:aixdlun)

申請創業報道,分享創業好點子。點擊此處天天PK10,共同探討創業新機遇!

作者: 智能相對論    /    文章:423篇

相關標簽
ai技術
ai智能

相關文章

  • 搜狗AI技術再迎突破,全球首個3D AI合成主播發布

    5月21日,在全國矚目的兩會召開之際,搜狗聯合新華社推出的全球首個3DAI合成主播“新小微”正式亮相,為全國觀眾帶來最新的兩會新聞資訊報道。基于搜狗人工智能核心技術“搜狗分身”打造的“新小微”,將拉開中國傳媒行業全面進入智慧時代的序幕。

  • AI錄音筆戰場:搜狗與科大訊飛的對決

    早期的時候,人們所有需要記錄的內容只能依靠手寫來實現,一旦遇到信息量大、語速過快的內容就難以完整地記錄。來到互聯網的時代,雖然通過電腦打字能解決大部分的記錄難題,但是電腦攜帶不方便,并且受網絡限制,難以滿足人們不斷變換的記錄場景。

    標簽:
    錄音筆
    ai技術
  • 百度智能云推出AI中臺,加速人工智能下沉

    天天PK103月8日下午五點半,山東淄博一處人煙稀少的郊區出現了火情,著火點上方就是國家電網的220kv高壓線路。假如火情不能在一定時間內被控制,可能將影響幾十萬居民的生活用電和上千家工廠的生產用電。

  • 小視科技AI助力沈陽渾南區政府全面打造“智慧機關”

    近日,根據沈陽市統籌推進新冠肺炎疫情防控和經濟社會發展工作指揮部的指示精神,渾南區人民政府積極應對,依據當前形勢進一步加強了聯防嚴控措施。并且,鑒于此前已與小視科技合作部署了“戴口罩人臉識別+紅外測溫”AI防疫解決方案

    標簽:
    ai技術
    ai智能
  • RPA+AI讓自動化無處不在,自主認知的人機協同新時代已來

    兩個月前,王吉偉頻道寫過一篇關于增強智能的文章。在那篇文章中,與大家探討了增強智能與人工智能的融合,以及現階段的人機協同,其中特別提到了RPA(機器人流程自動化)與AI的融合。這種融合,到底發展到了什么程度?

    標簽:
    ai智能
    ai技術
  • 百度、華為的過渡方案Carlife、HiCar能否轉正?

    在華為的理解中,HiCar基于鴻蒙系統,是鴻蒙系統的一個功能模塊,而鴻蒙系統的最終目標是像樂高積木一樣,把任意硬件模塊可以自由組合,這樣不僅在手機和車機之間建立管道,同時也將手機的應用和服務延展到汽車,讓汽車和手機、其他IOT設備之間實現通聯。

    標簽:
    百度
    華為
  • 誰將扮演人工智能新基建的“發電廠”?

    如果這個秋天,新冠病毒真的發動第二波,我們還會再經歷一次“封城”嗎?毫無疑問,在2020年開年的新冠疫情防控中,以大數據和人工智能為代表的科技力量在“戰疫”的各種場景下所表現出的應用價值,已經得到了充分的效果展示。

    標簽:
    新基建
    ai智能
  • BATH逐鹿“新基建”丨百度集團副總裁李震宇:智能交通大有可為

    從各地紛紛公布智能交通項目規劃,到百度近期密集中標大單;從交通運輸部部長李小鵬在國新辦新聞發布會上點贊自動駕駛,為智能交通發展再注推力,到李彥宏在全國政協會議上提交相關提案,智能交通、自動駕駛的熱度持續升溫。

  • 2020探跡科技渠道招商會廣州舉行 全國巡回招商會拉開序幕

    天天PK105月29日,探跡科技在廣州舉辦主題為“新基建.新拓客.新商業”的渠道招商會,共聚集來自上海、北京、廣州、深圳、安徽、貴州等全國各地二十多家合作伙伴,共同探討在“新基建”大勢下,“大數據和人工智能“在企業服務的市場發展前景。

    標簽:
    ai技術
  • 這些生物識別技術終成逃犯克星

    2018年,甘肅省一家金店被搶劫,監控攝像頭距離嫌犯大概有40-50米遠的距離,而且他刻意擋住了面部。公安找到世界領先的步態識別人工智能團隊銀河水滴,在其幫助下快速破案。

  • 從蘋果、小米到三星、華為,“健康牌”能否持續“壟斷”智能穿戴市場?

    從2012年,首款GoogleGlass亮相,打開了智能穿戴設備的大門,到隨后智能手表、手環的層出不窮。從一開始的驚艷眾人,再到“泯然于眾、默默發展”,智能穿戴設備這些年也經歷了不少“坎坷”。

    標簽:
    可穿戴裝備

熱門排行

編輯推薦

掃一掃關注最新創業資訊
宁夏快三-欢迎您 众博彩票-爱问知识人 中博娱乐-互动百科 大发平台app-百科词条 中博平台-搜霸天下 奥博平台-即可搜索 智胜彩票-新浪爱彩 五分快3-一定牛 彩票代理-360云盘 极速pk10APP-百度耨米