我們所知。 WordNet是一個英語詞匯數據庫,它將英語單詞以同義詞集合(synset)作為一個基本組織單位,集合里提供詞匯 簡短定義和使用示例,人腦如果有一個已知 概念,就可以在同義詞集合中找到一個適合 詞去表達這個概念。而現在,美國德克薩斯大學奧斯汀分校(UTAustin) 研究人員開發了一種將信息從WordNet數據庫整合到信息檢索(IR,informationretrieval)系統 方法,便于通用搜索引擎以及醫學知識或非英語文本等細分領域 研發。說明之前,我們先來了解一下WordNet由普林斯頓大學(Princeton) 心理學家、語言學家和計算機工程師聯合設計 一種基于認知語言學 英語詞典【常用 英語詞典分為詞典(Dictionary)、分類詞匯匯編(Thesaurus)、同義詞和反義詞(SynonymsandAntonyms)、慣用法(Usage)、成語(Idioms)、俚語(Slang)和詞源(Etymology)等等】。(圖中四種不同詞性 網絡之間并無連接,WordNet為其提供連接)它是一個覆蓋范圍寬廣 英語詞匯語義網。名詞,動詞,形容詞和副詞各自被組織成一個同義詞 網絡,每個同義詞集合都代表一個基本 語義概念,并且這些集合之間也由各種關系連接它不是光把單詞以字母順序排列,而且按照單詞 意義組成一個單詞 網絡。為什麼需要一個WordNet?計算機提供了一個良好 模式演練場,通過它,人們可以測試各種關于人類認知能力 理論模型。越來越多2017 SEO網路行銷-奇寶網路 人認識到,一個大 詞庫對自然語言理解,人工智能 各方面研究都具有重要。 價值。對大規模機器可讀詞典 需求同時也帶來許多基礎問題。首先是如何構造這樣一個詞庫,是手工編制還是機器自動生成?第二,詞典中應包含什麼樣 信息?第三,詞典應如何設計,即信息如何組織,以及用戶如何訪問?實際上,這些問題涉及到詞典 編纂方法,詞典 內容,詞典 使用方式這一系列非常基礎 問題。WordNet 內容是什麼?對此公開資料顯示,人們經常區分詞語知識和世界知識,前者體現在詞典中,后者體現在百科全書中,但事實上二者 界限是模糊 。比如hit(打)某人是一種帶有敵意 行為,這是百科知識;而hit跟strike(擊)多多少少同義,并且hit可以帶一個直接賓語論元,這是詞語知識。但hit 直接賓語應該是固體(而不是像gas這樣 氣體),這是詞語知識還是百科知識就界限模糊了。不過毫無疑問,要理解語言,這兩部分知識是缺一不可 。WordNet相當于一個統籌。之所以有了WordNet,也就有了更多相關 應用落地,比如搜索引擎。那么,搜索引擎如何生成相關站點鏈接列表?這要歸功于信息檢索演變進程中兩股強大力量 發展:人工智能(尤其是自然語言處理)和眾包。當我們搜索一個信息,得到一系列信息,兩者之間如何對應起來?對于我們所輸入 詞匯與大量預測網頁之間 關系,計算機算法對此 解釋是,主要基于其系統所接受 數以億計 文本訓練中語言連接 頻率。但這并不是信息 唯一來源。對于重要話題,專業 注解者會強化其語義關系,調整搜索結果和生成結果 算法,而通過網絡檢索者(也就是我們) 點擊,算法會辨別出哪些鏈接是最佳結果。盡管很不可思議,但這個模型帶來 改變世界性 成功,也存在一定缺陷。因為搜索引擎給出 結果往往不像我們想 那樣智能,它們仍然缺乏對人類語言和邏輯 真正理解。除此之外,它們有時會重復、加深我們 搜索結果中出現 偏差,而不是為我們提供新 信息或觀點。在研究過程中,美國德克薩斯大學奧斯汀分校信息學院副教授馬修·里斯(MatthewLease)提出一個設想:利用計算機和人類大腦 雙重力量,或許能夠創造更加智能 信息檢索系統方式。為了將人工智能與注釋者 見解以及特定領域資源 信息編碼整合在一起,里斯教授及其同事們正在開發一種新 信息檢索方案,它將有利于通用搜索引擎以及醫學知識或非英語文本等研發 細分領域。8月初,在加拿大溫哥華舉辦 計算機語言學協會年度會議上,里斯、德克薩斯大學奧斯汀分校和美國東北大學 幾位合作者通過兩篇論文,描述了他們新穎 信息檢索系統想法。他們 研究借助了德克薩斯高級計算中心 超級計算資源。在其中一篇論文中,以博士生AnNguyen為首,他們提出了一種方法,即結合多個注解者輸入 信息,來確定所有給出 文本中最好 注解方案。他們將這種方法用在了兩個問題 研究上:分析自由文本搜索描述醫學研究2017 SEO網路行銷-奇寶網路 文章,來提取每項研究 細節(例如,健康狀況、患者統計信息、治療手段和效果),以及通過識別命名實體分析突發新聞報道來識別事件、人以及所涉及 地方。里斯同時提出,在自然語言處理中有一個重要挑戰,即準確地在自由文本中查找所包含 重要信息,它將使我們把這些信息提取到數據庫,并將其與其他數據結合在一起,以做出更加智能 決策和新發現。相關解決方案是,里斯這些研究人員已經大規模地利用眾包來為醫學和新聞文章注解,以確保其智能系統將能夠更加精準地找到每一篇文章中所包含 關鍵信息。習慣上,這些注解歷來都是由相關領域專家完成 。然而,近來,眾包已經成為一個以較低成本獲取大量帶標簽數據 廣受歡迎 方法。可以預見 是,這些來自非專業人士 注解質量要比那些領域專家 注解差,因此評估大眾注解者 可靠性是很有必要 ,而且將這些個人注解整合成一套參考標準一致 標簽也很有必要。里斯 研究團隊還發現,他們 方法可以訓練神經網絡,這樣它就可以非常準確地預測出命名實體,并在未命名文本中提取相關信息。這個新方法改進了現有 標記和訓練方法。該方法還為每一位工作人員 標簽質量提供了評估,它可以在任務之間轉移,而且對誤差分析和智能路由任務很有用可以識別出每個特定文本 最佳注解人選。該圖是一個局部權值共享分類 例子,如圖所示,單詞被分為了兩組,里斯 研究小組在歸屬于同一組 單詞中,隨機地選擇待共享權值后將其嵌入。權值共享限制了系統必須學習 自由參數 數量,提高了該神經模型 效率和精度,并成為了一個靈活結合先驗知識 方法。在這一過程中,他們將最好 人類知識與機器學習結合在了一起。【貢獻者:張燁(YeZhang);德州大學奧斯汀分校馬修·里斯(MatthewLease);美國東北大學拜倫·C·華萊士(ByronC.Wallace)】第一篇論文:LearningtoEffectivelySelectTopicsForInformationRetrievalTestCollections鏈接:https://arxiv.org/pdf/1701.07810.pdf利用現有知識創造更好 神經系統模型該團隊 另一篇論文以博士生張燁(YeZhang)為首,文章提出,自然語言處理(NLP) 神經模型往往會忽視現有資源,例如WordNet詞匯數據庫。他們提出了一種方法,可以通過權值共享(weightsharing),利用這些現有 語言資源,為了自動文本分類改善自然語言處理模型。例如,該模型學習將醫學文章進行分類,將描述臨床試驗 研究分類到與臨床醫學問題相關電商SEO優化-奇寶網路 定義下。在權值共享下,相似 詞匯將共享一個權值 其中一部分,或指定 數值。權值共享限制了系統必須學習 自由參數 數量,從而提高該神經模型。 效率和精度,并起到一個靈活結合先驗知識 方式。在這個過程中,他們將人類知識與機器學習結合在了一起。神經網絡模型 參數有很多,并且需要大量 數據去配合它們。里斯因此有了一個想法,如果能夠以某種方式推出一些與其他先驗詞匯相關 詞匯,那么就沒必要非要為每個單獨 詞匯設置一個參數,而可以將多個單詞配合使用一個參數,這樣所需要學習模型 數據就比較少了。這種方法將在沒有大量數據限制 情況下實現深度學習成果。他們將一種形式 權值共享應用在了一段電影評論 情感分析和與貧血癥有關 生物醫學搜索中。在分類任務上,相比沒有使用權值共享策略 情形,他們 方法不斷獲得了改進性能。來自美國東北大學 合作者拜倫·華萊士(ByronWallace)也認為,這種方式,相當于在數據驅動 神經網絡模型中編寫和開發專業領域知識提供了一個通用框架。【華萊士曾經也是德州大學奧斯汀分校 教職工,而且也是德克薩斯高級計算中心(TACC) 老用戶。】里斯、華萊士和他們 合作者在德克薩斯高級計算中心 Maverick超級計算機上使用GPU(圖形處理單元)對其機器學習系統進行分析和培訓。里斯表示:訓練神經計算模型處理大數據需要大量 計算時間。而TACC恰好就成為了一處很棒、很合適 資源,而且這不僅僅緣于其強大 可用存儲,還得益于其大量 節點和可適用于神經模型訓練 高效處理速度。據里斯說,除了GPU,TACC部署了英特爾先進 處理架構,機器學習庫正在迎頭趕上。盡管許多深度學習庫一直在對GPU 處理進行高度優化,但從長遠來看,一旦其他架構也進行了優化,它們將變得更快。TACC數據密集型計算主管尼爾·加夫尼(NiallGaffney)表示,在TACC 與Caffe(加州大學伯克利分校開發 深度學習框架,已被充分應用到了英特爾 至強Phi處理器中)進行 前期工作中,他們發現,這些CPU 性能差不多與許多人工智能運行時 CPU性能相當。加夫尼認為這相當于一個變革,畢竟它將能夠提供更多可以滿足這些研究人員 節點,同時也允許高性能計算機(HPC)用戶可以在他們 分析階段利用人工智能,而無需移動到一個不同 GPU啟用系統。通過提高自動信息提取和文本分類 核心自然語言處理技術,建立在這些技術上 網絡搜索引擎可以繼續提高。里斯已經收到來自美國國家科學基金會(NSF)、美國博物館和圖書館服務研究院(IMLS)和美國國防高級研究計劃局(DARPA) 資助,來改善跨各種任務、規模和設置 眾包質量。盡管商業網絡搜索公司投入了大量資源來開發實用、有效 解決方案,但行業 需求迫使里斯仍然專注于商業應用問題和短期解決方案。這也是為什麼像里斯這樣 研究人員得以展開這些高風險、潛在變革性 研究之原因。第二篇論文:ExploitingDomainKnowledgeviaGroupedWeightSharingwithApplicationtoTextCategorization鏈接:https://arxiv.org/pdf/1702.02535.pdf來源:phys.org;編譯:科技行者搜索引擎人工智能量體裁云,SAP與成長型企業共話云端管理之道 |