手機(jī)號(hào)
未認(rèn)證執(zhí)照
張寶(先生)
普通會(huì)員
張寶 (先生)
信息的基本單位是句子,一個(gè)句子可以較表達(dá)完整連貫的易于理解的語義。句子中起主要作用的往往是關(guān)鍵詞、詞組或短語,而句子中的其他成分只是起到進(jìn)一步修飾連接的作用,它們只是對(duì)基本信息的細(xì)化和補(bǔ)充。一旦獲取了這些有意義的關(guān)鍵信息,便能獲取句子的基本信息。因此,新特征語言和有意義串發(fā)現(xiàn)對(duì)中文自然語言理解是很有意義的。發(fā)現(xiàn)頻繁使用的新詞和短語等有意義串不僅能改進(jìn)分詞準(zhǔn)確率,也有著其他廣泛的應(yīng)用前景。其應(yīng)用領(lǐng)域主要如下幾個(gè)方面:
首先,是對(duì)信息檢索索引詞的分析。例如,“計(jì)算技術(shù)研究所”是一個(gè)完整的查詢詞,而“計(jì)算”或者“技術(shù)”幾乎不會(huì)有人去查詢。當(dāng)用戶想搜索大眾汽車時(shí),輸入“大眾”得到的搜索結(jié)果可能不太準(zhǔn)確,包含很多類似“人民大眾”、“勞苦大眾”這樣非大眾汽車的信息,而作為有意義串的“上海大眾”具有語義完整性,能夠排除歧義,一般能更準(zhǔn)確地描述用戶的需求。所以,有意義串能夠應(yīng)用到信息檢索的查詢詞修正以及相關(guān)搜索分析。
其次,在社會(huì)熱點(diǎn)挖掘與跟蹤方面有應(yīng)用價(jià)值。一個(gè)有意義串就是一個(gè)線索,就是一個(gè)很有價(jià)值的社會(huì)現(xiàn)象,它們往往包含了網(wǎng)民對(duì)當(dāng)前社會(huì)各種現(xiàn)象的立場和觀點(diǎn)。因此,對(duì)新特征語言和有意義串的挖掘,對(duì)社會(huì)熱點(diǎn)挖掘與輿情監(jiān)控的意義重大。
第三,能用于信息分析與特征提取。除字和詞外,常用的文本特征項(xiàng)主要有短語、語義概念、有意義串等。有意義串的提取對(duì)于改善文本分類和聚類性能具有重要指導(dǎo)意義。
第四,對(duì)詞典擴(kuò)充與語料庫建設(shè)意義重大。由于新詞出現(xiàn)的速度不斷加快,新詞出現(xiàn)的領(lǐng)域不斷增多,使用傳統(tǒng)的人工方法搜集新詞語,既耗時(shí)又耗力且時(shí)效性差。如果利用電腦的計(jì)算能力和自動(dòng)檢測方法,可以快速輸出新詞候選供人工進(jìn)行篩選,這將大大減輕了人的負(fù)擔(dān)。若能將新詞屬于有意義串的一部分被自動(dòng)提取出來,必將促進(jìn)語料庫的自動(dòng)化建設(shè)。此外,有意義串挖掘進(jìn)一步深化可以進(jìn)行關(guān)鍵頻繁模式挖掘,對(duì)更高層次的文本自動(dòng)內(nèi)容抽取、話題檢測和機(jī)器翻譯等應(yīng)用都有比較重要的意義。
新特征詞和有意義串是指具備統(tǒng)計(jì)意義的串,新特征詞和有意義串主要分為以下幾個(gè)類別(其中前兩類全部是詞語,后三類中既包括詞語又包括短語和詞組):
(1). 命名實(shí)體,如 “民進(jìn)黨”、 “巴西隊(duì)”等;
(2). 新造詞,指狹義新詞,如“博客”、“戶型”、“撞衫”等;
(3). 領(lǐng)域術(shù)語,指領(lǐng)域相關(guān)的常用術(shù)語,如“計(jì)算語言學(xué)”、“未登錄詞”、“股骨頭壞死”等;
(4). 固定搭配,主要指通用語料中經(jīng)常使用的常用搭配,如“住房需求”等;
(5). 成語、歇后語等慣用語,如“智者千慮,必有一失”,“仁者見仁,智者見智”等。
有很多學(xué)者用統(tǒng)計(jì)的方法提取有意義串,即根據(jù)一個(gè)字符串的頻率、互信息(mutual information,mi)、鄰接類別(accessor variety, av)等統(tǒng)計(jì)量來判斷該串是否為有意義串。這種方法對(duì)高頻與意義串處理結(jié)果較好,但對(duì)很難有效的提取低頻的有意義串。
而nlpir文本搜索與挖掘系統(tǒng)是針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的需要,融合了自然語言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),提供了用于技術(shù)二次開發(fā)的基礎(chǔ)工具集。
nlpir能夠全方位多角度滿足應(yīng)用者對(duì)大數(shù)據(jù)文本的處理需求,包括大數(shù)據(jù)完整的技術(shù)鏈條:網(wǎng)絡(luò)抓取、正文提取、中英文分詞、詞性標(biāo)注、實(shí)體抽取、詞頻統(tǒng)計(jì)、關(guān)鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴(kuò)展、繁簡編碼轉(zhuǎn)換、自動(dòng)注音、文本聚類等。
聯(lián)系人 | 需求數(shù)量 | 時(shí)間 | 描述 |
---|---|---|---|
暫無產(chǎn)品詢價(jià)記錄 |
采購商 | 成交單價(jià)(元) | 數(shù)量 | 成交時(shí)間 |
---|---|---|---|
暫無購買記錄 |
地區(qū):廊坊
主營產(chǎn)品:富卓液壓,施羅德液壓,海普洛液壓地區(qū):衡水
主營產(chǎn)品:河北變形縫,河南變形縫,山東變形縫地區(qū):北京
主營產(chǎn)品:低壓聚乙烯,高壓聚乙烯,聚丙烯地區(qū):成都
主營產(chǎn)品:電磁閥,氣缸,過濾器