手機(jī)號(hào)
未認(rèn)證執(zhí)照
張寶(先生)
普通會(huì)員
張寶 (先生)
隨著信息技術(shù)的高速發(fā)展、數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)量急劇增長(zhǎng),大量的信息給人們帶來(lái)方便的同時(shí),也帶來(lái)了諸如:信息過(guò)量難以消化,信息真假難以辨識(shí),信息安 全難以保證,信息形式不一致難以統(tǒng)一處理等問(wèn)題。如何從海量的數(shù)據(jù)中提取有用的知識(shí)成為當(dāng)務(wù)之急。數(shù)據(jù)挖掘就是為順應(yīng)這種需要應(yīng)運(yùn)而生發(fā)展起來(lái)的數(shù)據(jù)處理技術(shù)。
大數(shù)據(jù)挖掘是伴隨者互聯(lián)網(wǎng)的普及應(yīng)用和傳統(tǒng)信息檢索技術(shù)的不足提出并發(fā)展起來(lái)的。大數(shù)據(jù)挖掘是從大數(shù)據(jù)中發(fā)現(xiàn)有用的模式(其中的數(shù)據(jù)可以存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中),它旨在解決數(shù)據(jù)挖掘、信息檢索、知識(shí)抽取以及更廣泛的商業(yè)問(wèn)題。面向大數(shù)據(jù)的挖掘比面向數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘要復(fù)雜,因?yàn)榇髷?shù)據(jù)往往是無(wú)結(jié)構(gòu)的,通常是用長(zhǎng)的句子或短語(yǔ)來(lái)表達(dá)文檔類(lèi)信息;有些則可能是半結(jié)構(gòu)化的,當(dāng)然也包括大量的異構(gòu)信息、冗余信息等,對(duì)諸如廣告 、導(dǎo)航條、動(dòng)畫(huà)等無(wú)關(guān)信息的甄別與處理也都是需要考慮的問(wèn)題。大數(shù)據(jù)挖掘也是一個(gè)交叉學(xué)科,它涉及信息檢索(信息檢索可以看成是大數(shù)據(jù)挖掘的初級(jí)階段)、人工智能、機(jī)器學(xué)習(xí)、概率論以及數(shù)據(jù)庫(kù)等。在大數(shù)據(jù)搜索和檢索中,常常需要對(duì)結(jié)果進(jìn)行處理和內(nèi)容挖掘。應(yīng)用數(shù)據(jù)分析與挖掘方法,可以幫助人們從海量網(wǎng)絡(luò)信息中提取知識(shí),為訪問(wèn)者、站點(diǎn)經(jīng)營(yíng)者以及包括電子商務(wù)在內(nèi)的基于因特網(wǎng)的商務(wù)活動(dòng)提供決策支持。由于大數(shù)據(jù)的海量、冗余、異構(gòu)等復(fù)雜特點(diǎn),給傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)提出了很多亟待解決的難題。
作為大數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)重要研究分支,文本挖掘與處理主要研究從非結(jié)構(gòu)化及半結(jié)構(gòu)化的海量web文本信息中挖掘有價(jià)值的信息,處理其中可能隱藏著的概念及其聯(lián)系,并完成可能的知識(shí)發(fā)現(xiàn)。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的nlpir大數(shù)據(jù)語(yǔ)義智能分析技術(shù)是對(duì)語(yǔ)法、詞法和語(yǔ)義的綜合應(yīng)用。nlpir大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語(yǔ)言理解、文本挖掘和語(yǔ)義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開(kāi)發(fā)平臺(tái)。
其中kgb(knowledge graph builder)知識(shí)圖譜引擎是我們自主研發(fā)的知識(shí)圖譜構(gòu)建與推理引擎,基于漢語(yǔ)詞法分析的基礎(chǔ)上,采用kgb語(yǔ)法實(shí)現(xiàn)了實(shí)時(shí)高效的知識(shí)生成,可以從非結(jié)構(gòu)化文本中抽取各類(lèi)知識(shí),并實(shí)現(xiàn)了從表格中抽取指定的內(nèi)容等。kgb同時(shí)可以定義不同的動(dòng)作,如抽取動(dòng)作,并能自定義各類(lèi)后處理程序。利用kgb知識(shí)圖譜引擎可以抽取到產(chǎn)品的詳細(xì)報(bào)價(jià)信息,方便進(jìn)行下一步的數(shù)據(jù)挖掘與圖譜構(gòu)建。
大數(shù)據(jù)挖掘技術(shù)是一個(gè)充滿(mǎn)希望的研究領(lǐng)域,商業(yè)利益的強(qiáng)大驅(qū)動(dòng)力將會(huì)不停地促進(jìn)它的發(fā)展。每年都有新的數(shù)據(jù)挖掘方法和模型問(wèn)世,人們對(duì)它的研究正日益廣泛和深入。對(duì)海量文本信息進(jìn)行有效的數(shù)據(jù)挖掘已經(jīng)是自然語(yǔ)言處理、信息檢索、信息分類(lèi)、信息過(guò)濾、語(yǔ)義挖掘、文本的機(jī)器學(xué)習(xí)等諸多應(yīng)用領(lǐng)域基礎(chǔ)且關(guān)鍵的研究問(wèn)題,它影響著上層信息服務(wù)與信息共享的質(zhì)量和水平。nlpir大數(shù)據(jù)語(yǔ)義智能技術(shù)將對(duì)中文數(shù)據(jù)挖掘技術(shù)進(jìn)行深入研究,必將提供出高質(zhì)量、多功能的中文數(shù)據(jù)挖掘算法并促進(jìn)自然語(yǔ)言理解系統(tǒng)的廣泛應(yīng)用。
聯(lián)系人 | 需求數(shù)量 | 時(shí)間 | 描述 |
---|---|---|---|
暫無(wú)產(chǎn)品詢(xún)價(jià)記錄 |
采購(gòu)商 | 成交單價(jià)(元) | 數(shù)量 | 成交時(shí)間 |
---|---|---|---|
暫無(wú)購(gòu)買(mǎi)記錄 |
地區(qū):成都
主營(yíng)產(chǎn)品:電磁閥,氣缸,過(guò)濾器地區(qū):汕頭
主營(yíng)產(chǎn)品:物流公司,貨運(yùn)站,國(guó)內(nèi)陸運(yùn)地區(qū):成都
主營(yíng)產(chǎn)品:聲屏障,護(hù)欄網(wǎng),石籠網(wǎng)地區(qū):邢臺(tái)
主營(yíng)產(chǎn)品:回收煙酒,回收茅臺(tái)酒,邢臺(tái)回收五糧液