以下為實錄:
YQ:貴公司主要使用大數(shù)據(jù)來解決哪些方面的問題,想借助大數(shù)據(jù)取得哪些成果?
佰騰科技大數(shù)據(jù)團隊:佰騰科技專注為客戶提供最好的專利信息和技術(shù)創(chuàng)新服務(wù),我們所依賴的核心就是專利信息的數(shù)據(jù)挖掘,以及與專利信息相關(guān)的其它延展信息的數(shù)據(jù)挖掘,如全球期刊文獻、法律訴訟、企業(yè)信息等。專利信息的『大數(shù)據(jù)』與其它領(lǐng)域的『大數(shù)據(jù)』多少有些不同,雖然全球?qū)@畔⒌目偭績H在1億多條,但是每條專利信息要分析獲取的數(shù)據(jù)維度目前就多達200多項,實際處理的數(shù)據(jù)量在百億級別。同時,針對各種客戶的不同需求,我們還要基于這些數(shù)據(jù)實現(xiàn)數(shù)百種的分析模型和方法,從中挖掘出專利信息的深層次價值。
在我們的業(yè)務(wù)處理場景中,我們需要經(jīng)常性的對原始數(shù)據(jù)進行維度的挖掘和測試,以確保數(shù)據(jù)維度滿足客戶分析應(yīng)用的要求。以前,我們在自建的環(huán)境中進行一次回歸數(shù)據(jù)處理要花費近一周的時間,如果中途發(fā)現(xiàn)錯誤還會導(dǎo)致大量的時間浪費,效率非常低下。而在使用了數(shù)加大數(shù)據(jù)基礎(chǔ)服務(wù)之后,這個時間縮短到了小時級別,數(shù)據(jù)回歸處理的風(fēng)險大幅下降,數(shù)據(jù)分析工程師可以在更快的時間內(nèi)驗證分析模型和方法,效率提升非常顯著。
另外,隨著我們對專利信息維度挖掘的深入,我們對于信息挖掘的需求正在從『文字表述』向『邏輯概念』轉(zhuǎn)移,比如我們希望從專利信息中挖掘出技術(shù)概念并發(fā)現(xiàn)它們之間的關(guān)系,這樣我們就能幫助客戶更好的分析技術(shù)發(fā)展的趨勢和熱點。目前我們正在推進專利信息深度挖掘技術(shù)的研發(fā),借助數(shù)加平臺的機器學(xué)習(xí)以及數(shù)據(jù)分析能力,為我們的客戶提供更加精準(zhǔn)、更加全面、更個性化的專利大數(shù)據(jù)應(yīng)用服務(wù)。
YQ:在大數(shù)據(jù)實踐的過程中,你們業(yè)務(wù)場景中的主要挑戰(zhàn)有?
佰騰科技大數(shù)據(jù)團隊:我們的挑戰(zhàn)主要來自于三個方面:
1. 專利大數(shù)據(jù)處理的維度內(nèi)容越來越多,數(shù)據(jù)量也越來越大,我們原有的以文本搜索為核心的數(shù)據(jù)框架平臺亟待升級,未來我們需要把數(shù)加的能力融合到我們的新數(shù)據(jù)框架平臺上,實現(xiàn)對數(shù)據(jù)的獲取、清洗、挖掘、分析、應(yīng)用的全周期的數(shù)據(jù)管理、監(jiān)控和開發(fā)支撐。
2.專利大數(shù)據(jù)的深度挖掘越來越需要依賴新的數(shù)據(jù)挖掘技術(shù),比如文本聚類、機器學(xué)習(xí)、圖像識別等,而我們不可能建立并擁有研發(fā)這些技術(shù)的專業(yè)團隊,我們認為數(shù)加平臺可以在我們的領(lǐng)域內(nèi)給予針對性的能力支撐。
3.專利大數(shù)據(jù)的應(yīng)用是一個實踐性非常強的領(lǐng)域,隨著客戶應(yīng)用需求的不斷提升, 我們需要不斷更新分析和展示數(shù)據(jù)結(jié)果的模型和方法,這里面不僅有提升數(shù)據(jù)處理效率的問題,也有提升數(shù)據(jù)分析應(yīng)用能力的問題。
佰騰科技大數(shù)據(jù)團隊:數(shù)加平臺的MaxCompute 解決了我們數(shù)據(jù)存儲量大的問題,保證了數(shù)據(jù)的安全性和完整性;平臺的任務(wù)開發(fā)功能很好的解決了數(shù)據(jù)處理過程中流程標(biāo)準(zhǔn)化的問題,可以將任務(wù)托管后自動化執(zhí)行,解放我們雙手;分布式的框架結(jié)構(gòu)解決了多任務(wù)的并發(fā)處理問題, 提高了任務(wù)處理的速度,實現(xiàn)了數(shù)據(jù)價值的快速挖掘,避免了我們自己開發(fā)系統(tǒng)存在的諸多不穩(wěn)定問題;機器學(xué)習(xí)平臺降低了算法的學(xué)習(xí)成本,也可利用既有的數(shù)據(jù)模型算法解決數(shù)據(jù)挖掘過程中的問題。 我們使用的服務(wù)有:數(shù)據(jù)存儲、數(shù)據(jù)處理、流程任務(wù)、機器學(xué)習(xí)。

使用數(shù)加平臺后,我們的數(shù)據(jù)存儲和處理效率有了大幅提升。在我們自建的環(huán)境里進行一次回歸數(shù)據(jù)處理需要7 天時間,而使用數(shù)加平臺處理只需要3~6 個小時。這些效率的提升可以縮短我們數(shù)據(jù)分析應(yīng)用產(chǎn)品的研發(fā)周期,并能更好的提高這些產(chǎn)品的需求符合度。
YQ:當(dāng)初是什么原因促使您選擇阿里云數(shù)加產(chǎn)品的?
佰騰科技大數(shù)據(jù)團隊:
1.我們自建環(huán)境儲存數(shù)據(jù)的代價高昂,不利于大量數(shù)據(jù)的安全存儲和快速處理。
2.我們自建環(huán)境和原有數(shù)據(jù)框架平臺對大數(shù)據(jù)處理的速度很慢,不能適應(yīng)業(yè)務(wù)需求的快速變化。
3.我們原有的數(shù)據(jù)框架平臺已使用多年,技術(shù)比較落后,已經(jīng)不能很好的支撐新的大數(shù)據(jù)研發(fā)需求。
4.阿里云在國內(nèi)大數(shù)據(jù)技術(shù)方面處于領(lǐng)先地位,也是最早進行大數(shù)據(jù)云化的平臺,我們信任阿里云數(shù)加平臺的能力。
YQ:對比云服務(wù)和自建大數(shù)據(jù)基礎(chǔ)設(shè)施,你們是怎么衡量的?佰騰科技大數(shù)據(jù)團隊:云服務(wù)最大的特點就是只管使用服務(wù),不需要關(guān)心底層技術(shù)架構(gòu)、安全性、可靠性、穩(wěn)定性等方面的問題。自建大數(shù)據(jù)基礎(chǔ)設(shè)施需要采購和維護大量硬件設(shè)備,部署和配置復(fù)雜的系統(tǒng)環(huán)境,需要耗費大量資源保證服務(wù)的持續(xù)、穩(wěn)定運行,并且對于運維人員的要求會更高。
對于我們專利大數(shù)據(jù)處理業(yè)務(wù)來講,云服務(wù)是我們整個業(yè)務(wù)系統(tǒng)依賴的重要基礎(chǔ),能幫助我們節(jié)省大量的基礎(chǔ)建設(shè)費用。同時,我們也會根據(jù)自身業(yè)務(wù)的需求,對云服務(wù)進行進一步的開發(fā),形成最有利于自身業(yè)務(wù)發(fā)展的大數(shù)據(jù)分析應(yīng)用平臺。
YQ:你們未來還想借助大數(shù)據(jù)實現(xiàn)的場景有?阿里云數(shù)加是否能滿足你們的需求?如果沒有,期待有哪些?
佰騰科技大數(shù)據(jù)團隊:我們希望借助阿里云數(shù)加平臺打造面向?qū)@髷?shù)據(jù)分析應(yīng)用的領(lǐng)域性大數(shù)據(jù)平臺,并利用大數(shù)據(jù)技術(shù)實現(xiàn)對專利信息數(shù)據(jù)價值的深度挖掘,能幫助客戶及時掌握全球技術(shù)發(fā)展的動態(tài)和熱點,提高企業(yè)技術(shù)創(chuàng)新和知識產(chǎn)權(quán)保護的效率和成效。
目前我們已經(jīng)將基礎(chǔ)數(shù)據(jù)處理和部分?jǐn)?shù)據(jù)挖掘的任務(wù)放在阿里云數(shù)加平臺上完成,我相信數(shù)加平臺會不斷發(fā)展并支撐我們更多的大數(shù)據(jù)業(yè)務(wù)需求,讓我們更多的大數(shù)據(jù)工作逐步實現(xiàn)云化。我們期待阿里云數(shù)加平臺能在文本數(shù)據(jù)挖掘、圖像數(shù)據(jù)識別、數(shù)據(jù)關(guān)聯(lián)分析等方面給予更多的能力支撐,助力專利大數(shù)據(jù)分析應(yīng)用領(lǐng)域的快速發(fā)展。
江蘇佰騰科技有限公司,是一家專業(yè)從事知識產(chǎn)權(quán)服務(wù)的高科技服務(wù)企業(yè),國內(nèi)知名的知識產(chǎn)權(quán)服務(wù)機構(gòu),江蘇省最大的民營知識產(chǎn)權(quán)綜合服務(wù)機構(gòu)。佰騰科技以專利信息應(yīng)用和專利咨詢服務(wù)為核心,面向國內(nèi)外用戶提供專利信息檢索、專利大數(shù)據(jù)應(yīng)用開發(fā)、專利代理服務(wù)、專利預(yù)警分析、專利戰(zhàn)略研究、知識產(chǎn)權(quán)貫標(biāo)輔導(dǎo)、知識產(chǎn)權(quán)管理、專利技術(shù)成果轉(zhuǎn)化交易等服務(wù),為客戶提供知識產(chǎn)權(quán)、科技創(chuàng)新的整體解決方案。
