手機(jī)號(hào)
未認(rèn)證執(zhí)照
張寶(先生)
普通會(huì)員
張寶 (先生)
隨著人們對(duì)計(jì)算機(jī)自動(dòng)化和智能化的渴望,人工智能的發(fā)展和研究應(yīng)運(yùn)而生。自然語(yǔ)言處理作為人工智能的重要研究方向之一,在對(duì)語(yǔ)言處理的高效性和準(zhǔn)確性方面有很大的發(fā)展和提高空間。進(jìn)行自然語(yǔ)言處理的頭等任務(wù),就是對(duì)語(yǔ)句進(jìn)行分詞處理。在世界上主流的自然語(yǔ)言中,由于中文句子的詞匯沒(méi)有像英文句子中對(duì)單詞使用空格以示區(qū)分,所以對(duì)中文詞匯的處理和識(shí)別具有很高的難度。并且中文具有一詞多義和句子歧義等現(xiàn)象,這些都是中文分詞面臨的問(wèn)題和挑戰(zhàn)。
詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分 。在中文中,詞與詞之間不存在分隔符,詞 本身也缺乏明顯的形態(tài)標(biāo)記,因此,中文信息處理 的特有問(wèn)題就是如何將漢語(yǔ)的字串分割為合理的詞語(yǔ)序列,即中文分詞,因而分詞是中文自然語(yǔ)言處理的第一步,這是不同于其他語(yǔ)言的自然語(yǔ)言處理系統(tǒng)的重要特點(diǎn),也是影響自然語(yǔ)言處理在中文信息處理中應(yīng)用的重要因素 。分詞系統(tǒng)是中文信息處理中的一個(gè)主要組成部分,是中文自然語(yǔ)言理解、文獻(xiàn)檢索、搜索引擎以及文本挖掘系統(tǒng)中最基本的一部分。漢字的簡(jiǎn)體/繁體轉(zhuǎn)換、信息檢索和信息抽取、搜索引擎、web文本挖掘、文本分類(lèi)、文本校對(duì)等中文信息處理系統(tǒng)都首先需要分詞作為其最基本的模塊,因而對(duì)漢語(yǔ)詞法分析技術(shù)的研究就顯得至關(guān)重要。
而中文分詞技術(shù)也影響著數(shù)據(jù)挖掘和分析的眾多方面,如什么是詞、詞如何組成句子、詞的意義是什么、詞的意義對(duì)句子意義有什么貢獻(xiàn)等,但這些卻還是遠(yuǎn)遠(yuǎn)不夠的。比如一個(gè)系統(tǒng)如果要回答提問(wèn)或者直接參與對(duì)話,它不僅需要知道很多語(yǔ)言結(jié)構(gòu)的知識(shí),而且還要知道人類(lèi)世界的一般性知識(shí)并具備人類(lèi)的推理能力。因此許多語(yǔ)言學(xué)家通常把對(duì)語(yǔ)言的分析和理解分成如下幾個(gè)主要層次:詞法分析、句法分析、語(yǔ)義分析、篇章分析。
首先,詞法分析——主要包括分詞、詞性標(biāo)注、詞義消歧、新詞識(shí)別等——是通過(guò)分詞、詞頻和位置統(tǒng)計(jì)等手段獲得相關(guān)語(yǔ)言信息。其次,句法分析通過(guò)使句子成分特征化來(lái)分析句子結(jié)構(gòu)特征,通過(guò)對(duì)句子和短語(yǔ)結(jié)構(gòu)的分析找出詞、短語(yǔ)等的相互關(guān)系以及各自在句中的作用,并以一定結(jié)構(gòu)來(lái)表達(dá)諸如從屬關(guān)系、成分關(guān)系等,目的是判定句子中各種結(jié)構(gòu)性成分。第三,為了理解一個(gè)提問(wèn),一般還需要更多的語(yǔ)義和語(yǔ)用知識(shí)來(lái)幫助理解句子的意思,通過(guò)分析找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定句子所表達(dá)的真正含義,而語(yǔ)義信息的標(biāo)記需要包含概念完全集與關(guān)系圖的支持,需要對(duì)句法成分做出細(xì)致的語(yǔ)義分類(lèi),它一般應(yīng)包括語(yǔ)言層面(即反映語(yǔ)言表面現(xiàn)象的知識(shí),如同義詞關(guān)系、層次關(guān)系等)、本體論層面(描述概念之間復(fù)雜的語(yǔ)義關(guān)系)、常識(shí)層面等。雖然這項(xiàng)工作浩繁,但目前已經(jīng)取得了一些初步成果。最后,篇章分析用于對(duì)多個(gè)語(yǔ)句、段落之間在結(jié)構(gòu)或者語(yǔ)義上的相互關(guān)系進(jìn)行分析。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的nlpir大數(shù)據(jù)語(yǔ)義智能分析技術(shù)是對(duì)語(yǔ)法、詞法和語(yǔ)義的綜合應(yīng)用。nlpir大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語(yǔ)言理解、文本挖掘和語(yǔ)義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開(kāi)發(fā)平臺(tái)。
nlpir大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)主要有精準(zhǔn)采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語(yǔ)言統(tǒng)計(jì)、文本聚類(lèi)、文本分類(lèi)、摘要實(shí)體、智能過(guò)濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項(xiàng)功能模塊,平臺(tái)提供了客戶端工具,云服務(wù)與二次開(kāi)發(fā)接口等多種產(chǎn)品使用形式。各個(gè)中間件api可以無(wú)縫地融合到客戶的各類(lèi)復(fù)雜應(yīng)用系統(tǒng)之中,可兼容windows,linux, android,maemo5, freebsd等不同操作系統(tǒng)平臺(tái),可以供java,python,c,c#等各類(lèi)開(kāi)發(fā)語(yǔ)言使用。
隨著云計(jì)算、移動(dòng)互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等技術(shù)的發(fā)展和完善,相信大數(shù)據(jù)在各個(gè)領(lǐng)域的應(yīng)用會(huì)越來(lái)越廣泛和深入,相關(guān)的研究也會(huì)越來(lái)越全面和深入,在信息管理領(lǐng)域,綜合應(yīng)用數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù),獲取用戶知識(shí)、文獻(xiàn)知識(shí)等各類(lèi)知識(shí),將是實(shí)現(xiàn)知識(shí)檢索和知識(shí)管理發(fā)展的必經(jīng)之路。
聯(lián)系人 | 需求數(shù)量 | 時(shí)間 | 描述 |
---|---|---|---|
暫無(wú)產(chǎn)品詢價(jià)記錄 |
采購(gòu)商 | 成交單價(jià)(元) | 數(shù)量 | 成交時(shí)間 |
---|---|---|---|
暫無(wú)購(gòu)買(mǎi)記錄 |
地區(qū):汕頭
主營(yíng)產(chǎn)品:物流公司,貨運(yùn)站,國(guó)內(nèi)陸運(yùn)地區(qū):廊坊
主營(yíng)產(chǎn)品:富卓液壓,施羅德液壓,海普洛液壓地區(qū):衡水
主營(yíng)產(chǎn)品:河北變形縫,河南變形縫,山東變形縫地區(qū):武漢
主營(yíng)產(chǎn)品:武昌公司注冊(cè),武昌注冊(cè)公司,武昌代理記賬