|
|
中文中有一詞多義,相比英文分析,中文語(yǔ)義分析的語(yǔ)義分析面臨更多技術(shù)難題。靈玖大數(shù)據(jù)在研發(fā)過程中,充分考慮到了中文特殊性,針對(duì)一詞多義和文章中出現(xiàn)的新地點(diǎn)名均提出了解決方案,提高了中文語(yǔ)義分析的準(zhǔn)確性。
漢語(yǔ)智能分詞
中文分詞是語(yǔ)義分析的基礎(chǔ)階段,是進(jìn)行中文信息處理必備的核心部件。靈玖綜合了各家所長(zhǎng),采用條件隨機(jī)場(chǎng)(Conditional Random Field,簡(jiǎn)稱CRF)模型。
條件隨機(jī)場(chǎng)運(yùn)用CRF模型,采用了先將漢語(yǔ)語(yǔ)言進(jìn)行定性的方式分析語(yǔ)言,根據(jù)自然語(yǔ)言的運(yùn)用環(huán)境對(duì)多義詞進(jìn)行定義,極大地提高了中文語(yǔ)言解析的準(zhǔn)確性,**詞性標(biāo)注準(zhǔn)確率接近99%,準(zhǔn)確率高、速度快、可適應(yīng)性強(qiáng)。
除了對(duì)多義詞的高準(zhǔn)確率區(qū)分,在對(duì)一些地點(diǎn)和機(jī)構(gòu)名的識(shí)別問題上,即使這類詞沒有事先存入系統(tǒng),CRF模型同樣能夠自動(dòng)挖掘出這類詞。條件隨機(jī)場(chǎng)極大地提高了識(shí)別的準(zhǔn)確率,能夠滿足多樣場(chǎng)景需求。
文本關(guān)鍵字提取
提取文章關(guān)鍵詞對(duì)于讀取文章的意義在于,在掌握文章的主題思想的前提下,了解文章關(guān)鍵字能夠達(dá)到精華閱讀效果,完成文章的語(yǔ)義查詢和快速匹配。采用基于語(yǔ)義分析的語(yǔ)言統(tǒng)計(jì)模型,文檔使用的范圍也更加廣泛,對(duì)新詞的識(shí)別率也很高。
關(guān)鍵詞提取組件的主要特點(diǎn)包括:
1、速度快:實(shí)現(xiàn)對(duì)海量網(wǎng)絡(luò)文本處理,實(shí)現(xiàn)每小時(shí)50篇文檔的高效處理模式。
2、處理精準(zhǔn): N的結(jié)果反應(yīng)了文章的主要枝干方向。
3、精準(zhǔn)排序:根據(jù)影響權(quán)重進(jìn)行排序,關(guān)鍵詞可以輸出權(quán)重值;
4、開放式接口:作為L(zhǎng)JParser的一部分,文章關(guān)鍵詞能夠提取組件采用靈活的開發(fā)接口,能夠方便地融入到用戶的業(yè)務(wù)系統(tǒng)中,以及支持各種操作系統(tǒng)和調(diào)用語(yǔ)言。
自動(dòng)文本摘要
對(duì)文章進(jìn)行摘要提取能夠使用戶快速掌握文章內(nèi)容,提供工作效率。
自動(dòng)摘要的中間件能夠處理的不只是單篇文章的摘要提取,還包括對(duì)同類型的文章進(jìn)行處理,提取出一篇簡(jiǎn)明扼要的摘要。同時(shí),用戶可以自由設(shè)定摘要的長(zhǎng)度、百分比等參數(shù);處理速度達(dá)到每秒鐘20篇。
靈玖軟件專注于大數(shù)據(jù)語(yǔ)義智能分析,憑借其在自然語(yǔ)言處理、信息檢索、信息過濾、知識(shí)圖譜等方向的**核心技術(shù)積累,形成了面向大型企業(yè)和政府軍隊(duì)的一系列語(yǔ)義智能化軟件系統(tǒng)。
|