構建知識圖譜需要滿足三項要素要求,分別是實體,關系和屬性。文本信息提取,則是在文本中提出三元信息,包括實體和關系的信息,實體和屬性的信息,然后將這些關系設置成數據庫的過程。
進行信息提取的主要環節介紹:
1、確定要進行信息提取的知識本體。
2、為每一個目標知識點設立足夠的訓練語料,或是抽取足夠的編寫規則
3、利用機器學習的方法,在訓練語料和規則的基礎上,建立模型。
構建知識圖譜**重要的環節,NLPIR平臺KGB知識圖譜在文本信息提取的優勢:
1、能夠解析不同格式文檔和圖片
KGB知識圖譜引擎,能夠對不同版本和格式的文檔進行解析:TXT、DOC、EXCEL、PPT、PDF、XML等,對于圖片,OCR可自動識別并抽取圖片中的文字信息。
2、對結構化表格數據知識抽取
KGB能夠自適應解讀并抽取結構化表格數據,實現知識的快速生成。
3、對非結構化文檔知識抽取
KGB知識規則引擎,能夠快速定位非結構化文檔中的關鍵信息(主體、時間、金額等),進行高效抽取知識。
NLPIR大數據語義智能分析平臺,是基于中文數據挖掘的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯網內容處理的全技術鏈條的共享開發平臺。
|