
在濟南超算中心產(chǎn)業(yè)園內(nèi),山東四維云科數(shù)據(jù)科技有限公司一群剛參加工作的年輕人正在電腦前,用軟件工具對一張張3D車庫雷達影像反復(fù)觀察、對比,處理稀疏、不規(guī)則的點云,標(biāo)注出柱子、墻體、汽車以及可移動物體的輪廓,經(jīng)過標(biāo)注的數(shù)據(jù)最后變成語料,投喂給大模型,訓(xùn)練出高階智駕。雖然從未體驗過自動駕駛,但他們的工作卻與自動駕駛技術(shù)的AI算法息息相關(guān)。手中的鼠標(biāo),連著AI的“眼睛”和“大腦”,標(biāo)注的每一筆,都在教機器如何認識世界。公司創(chuàng)始人王濤告訴記者,他們這家數(shù)據(jù)標(biāo)注企業(yè)剛成立不到一年,目前員工有70多人,常見的自動泊車、智能駕駛、網(wǎng)絡(luò)客服、語音助手、人臉識別等,最終都是靠數(shù)據(jù)標(biāo)注來支撐。有多少智能,背后就有多少人工。

走進市中區(qū)望岳·智谷產(chǎn)業(yè)園23層的山東金算通數(shù)字科技有限公司,智能臺燈能夠精準(zhǔn)識別孩子是在專注學(xué)習(xí)還是在玩游戲、提醒糾正不良坐姿;他們研發(fā)的AI政務(wù)員、分析員,輔助處理熱線工單……這些都是靠海量的數(shù)據(jù)語料以及算法、算力訓(xùn)練出來的?!皵?shù)據(jù)標(biāo)注,可以理解為把礦石變?yōu)榻饘俚倪^程。沒有標(biāo)注的原始素材,大模型是沒法識別的?!痹摴靖笨偨?jīng)理楊傳彬表示,數(shù)據(jù)質(zhì)量的高低直接關(guān)乎大模型的性能,如果數(shù)據(jù)有誤差,訓(xùn)練出來的大模型容易出現(xiàn)“幻覺”,答非所問,糾正難度極大。
“專家標(biāo)注的數(shù)據(jù),投喂出來的大模型就是專家水準(zhǔn),實習(xí)生標(biāo)注的數(shù)據(jù),最終訓(xùn)練出來實習(xí)生水平?!痹跉v下區(qū)醫(yī)療數(shù)據(jù)標(biāo)注產(chǎn)業(yè)基地內(nèi),山東宣馳信息科技有限公司負責(zé)人宋勇表示,數(shù)據(jù)決定了大模型的性能上限。他從醫(yī)科院校招聘了上百名臨床醫(yī)學(xué)的大學(xué)畢業(yè)生,為客戶標(biāo)注醫(yī)學(xué)數(shù)據(jù)?!氨热缥覀冞@個項目是識別標(biāo)注鈣化灶,客戶拿來訓(xùn)練大模型用于肺癌早篩。不能標(biāo)錯,必須醫(yī)學(xué)專業(yè)的來做。數(shù)據(jù)合格率保持在98%以上?!彼麄冎敖拥慕鹑跀?shù)據(jù)標(biāo)注業(yè)務(wù),則要求一本以上金融專業(yè)、三年以上券商從業(yè)經(jīng)驗。當(dāng)AI能力越強,對數(shù)據(jù)規(guī)模、質(zhì)量的要求就越高,對標(biāo)注員的知識背景和專業(yè)能力要求也隨之攀升。
宋勇服務(wù)的客戶多數(shù)是阿里、字節(jié)跳動、騰訊等互聯(lián)網(wǎng)大廠,規(guī)模小了接不住大單、急活。在濟南市大數(shù)據(jù)局和歷下區(qū)政府的支持下,他開始牽頭孵化數(shù)據(jù)標(biāo)注產(chǎn)業(yè)基地,抱團發(fā)展,目前已經(jīng)成功培育出7家企業(yè),從業(yè)人員300多人,預(yù)計到明年年底能達到1500人的規(guī)模。宋勇計劃,通過爭取衛(wèi)健系統(tǒng)的支持,發(fā)展高技術(shù)含量、高知識密度、高價值應(yīng)用的醫(yī)學(xué)數(shù)據(jù)標(biāo)注業(yè)務(wù),積極參與制定行業(yè)的團體標(biāo)準(zhǔn)、地方標(biāo)準(zhǔn)和國家標(biāo)準(zhǔn),擺脫“勞動密集型產(chǎn)業(yè)”標(biāo)簽。
近日,《濟南市數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展行動方案(2025—2026年)》公布,出臺一攬子扶持政策,助力這一新興產(chǎn)業(yè)高質(zhì)量發(fā)展,提出打造濟南超算數(shù)據(jù)標(biāo)注園區(qū)等3個綜合型數(shù)據(jù)標(biāo)注園區(qū),推動建設(shè)歷下醫(yī)療大健康數(shù)據(jù)標(biāo)注園區(qū)、市中望岳·智谷數(shù)據(jù)標(biāo)注園區(qū)等;圍繞工業(yè)制造、醫(yī)療健康、文化旅游、交通運輸、商貿(mào)流通、金融服務(wù)、科技創(chuàng)新、現(xiàn)代農(nóng)業(yè)、綠色低碳、政務(wù)服務(wù)等領(lǐng)域建設(shè)行業(yè)高質(zhì)量數(shù)據(jù)集,深度挖掘應(yīng)用場景和數(shù)據(jù)價值潛能。
主要開展關(guān)鍵技術(shù)攻關(guān),構(gòu)建數(shù)據(jù)標(biāo)注產(chǎn)業(yè)標(biāo)準(zhǔn)體系,圍繞電子信息、汽車、高端軟件、現(xiàn)代醫(yī)藥、集成電路、高端數(shù)控機床與機器人、空天信息、人工智能、新能源裝備、專用裝備、先進材料、鋼鐵、食品與生物制造等13條主攻產(chǎn)業(yè)鏈,培育壯大本地經(jīng)營主體,拓展應(yīng)用場景。
濟南正積極布局高端數(shù)據(jù)標(biāo)注產(chǎn)業(yè),雖相較于先發(fā)城市起步稍遲,但依托獨特發(fā)展定位展現(xiàn)出強勁后發(fā)潛力,目前已精準(zhǔn)從醫(yī)療、文化、高階智駕等高端領(lǐng)域切入,持續(xù)拓寬差異化發(fā)展路徑。濟南市大數(shù)據(jù)局局長張熙表示,濟南的大模型以及軟件產(chǎn)業(yè)優(yōu)勢明顯,鏈主企業(yè)、龍頭企業(yè)多,更形成了具備競爭力的產(chǎn)業(yè)生態(tài);當(dāng)前各方雖普遍認可數(shù)據(jù)資源的重要性,但多數(shù)主體更愿意為模型、算力買單。各行各業(yè)在推動行業(yè)大模型應(yīng)用的過程中,應(yīng)進一步加大對數(shù)據(jù)資源的投入,共同培育為優(yōu)質(zhì)數(shù)據(jù)買單的行業(yè)共識。作為國家數(shù)據(jù)要素綜合試驗區(qū)核心區(qū)、國家人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)、國家新一代人工智能創(chuàng)新發(fā)展試驗區(qū)和國家工業(yè)互聯(lián)網(wǎng)建設(shè)示范區(qū)“四區(qū)疊加”的城市,近年來濟南著力圍繞數(shù)據(jù)、算法、算力三要素,推進人工智能大模型攻關(guān),而人工智能模型訓(xùn)練又推動數(shù)據(jù)需求上升。
記者了解到,數(shù)據(jù)標(biāo)注產(chǎn)業(yè)作為人工智能產(chǎn)業(yè)的基石,充分釋放數(shù)據(jù)要素價值,深度賦能濟南市大數(shù)據(jù)、人工智能等產(chǎn)業(yè)高質(zhì)量發(fā)展,未來市場前景廣闊。在初級階段,仍然存在頂層設(shè)計尚需完善,高水平人才供不應(yīng)求,技術(shù)創(chuàng)新能力有待提升,專業(yè)平臺能力不足等問題,制約著產(chǎn)業(yè)生態(tài)的進一步完善。濟南此舉就是圍繞數(shù)據(jù)要素“供得出、流得動、用得好、保安全”打造產(chǎn)業(yè)生態(tài),培育一批成長性好、特色鮮明的數(shù)據(jù)標(biāo)注企業(yè),立足省會經(jīng)濟圈,提升濟南市數(shù)據(jù)標(biāo)注產(chǎn)業(yè)影響力。
 
             
         
        