deepseek公布廣度數(shù)據(jù)采集方法專利
天眼查財產(chǎn)線索信息顯示,近日,deepseek關(guān)聯(lián)公司杭州深度求索人工智能基礎技術(shù)研究有限公司申請的“一種廣度數(shù)據(jù)采集的方法及其系統(tǒng)”專利公布。
摘要顯示,本發(fā)明涉及數(shù)據(jù)采集領域,包括建立網(wǎng)頁元信息庫;確定每日調(diào)度單元下載配額及當日下載總額度;從網(wǎng)頁元信息庫中選取相應數(shù)量的鏈接,分配下載額度;下載過程控制;下載文本進行后處理及數(shù)據(jù)清洗后進入回灌隊列,通過信息回灌實現(xiàn)網(wǎng)頁元信息庫更新。本發(fā)明的有益效果在于:發(fā)現(xiàn)盡可能多的網(wǎng)頁鏈接,并減少對網(wǎng)站的流量沖擊;對已經(jīng)下載的內(nèi)容進行分析,對未下載的連接進行質(zhì)量推斷,通過擇優(yōu)下載分配額度的方式,減少低質(zhì)量網(wǎng)頁下載和重復下載,提高數(shù)據(jù)質(zhì)量及下載效率,減少在數(shù)據(jù)采集過程中網(wǎng)絡資源的消耗;采用單獨的信息回灌隊列,保證網(wǎng)頁元信息庫修改操作的原子性和穩(wěn)定性。