下一代搜索引擎或將依賴人工智能、眾包和超級計算機

關於我們

服務項目

媽咪教室

健康百科

產後護理

最新消息

最新消息 > 下一代搜索引擎或將依賴人工智能、眾包和超級計算機

我們所知。

WordNet是一個英語詞匯數據庫，它將英語單詞以同義詞集合（synset）作為一個基本組織單位，集合里提供詞匯簡短定義和使用示例，人腦如果有一個已知概念，就可以在同義詞集合中找到一個適合詞去表達這個概念。而現在，美國德克薩斯大學奧斯汀分校（UTAustin）研究人員開發了一種將信息從WordNet數據庫整合到信息檢索（IR，informationretrieval）系統方法，便于通用搜索引擎以及醫學知識或非英語文本等細分領域研發。說明之前，我們先來了解一下WordNet由普林斯頓大學（Princeton）心理學家、語言學家和計算機工程師聯合設計一種基于認知語言學英語詞典【常用英語詞典分為詞典(Dictionary)、分類詞匯匯編(Thesaurus)、同義詞和反義詞(SynonymsandAntonyms)、慣用法(Usage)、成語(Idioms)、俚語(Slang)和詞源(Etymology)等等】。（圖中四種不同詞性網絡之間并無連接，WordNet為其提供連接）它是一個覆蓋范圍寬廣英語詞匯語義網。名詞，動詞，形容詞和副詞各自被組織成一個同義詞網絡，每個同義詞集合都代表一個基本語義概念，并且這些集合之間也由各種關系連接它不是光把單詞以字母順序排列，而且按照單詞意義組成一個單詞網絡。為什麼需要一個WordNet？計算機提供了一個良好模式演練場，通過它，人們可以測試各種關于人類認知能力理論模型。越來越多2017 SEO網路行銷-奇寶網路人認識到，一個大詞庫對自然語言理解，人工智能各方面研究都具有重要。

價值。對大規模機器可讀詞典需求同時也帶來許多基礎問題。首先是如何構造這樣一個詞庫，是手工編制還是機器自動生成？第二，詞典中應包含什麼樣信息？第三，詞典應如何設計，即信息如何組織，以及用戶如何訪問？實際上，這些問題涉及到詞典編纂方法，詞典內容，詞典使用方式這一系列非常基礎問題。WordNet 內容是什麼？對此公開資料顯示，人們經常區分詞語知識和世界知識，前者體現在詞典中，后者體現在百科全書中，但事實上二者界限是模糊。比如hit（打）某人是一種帶有敵意行為，這是百科知識；而hit跟strike（擊）多多少少同義，并且hit可以帶一個直接賓語論元，這是詞語知識。但hit 直接賓語應該是固體（而不是像gas這樣氣體），這是詞語知識還是百科知識就界限模糊了。不過毫無疑問，要理解語言，這兩部分知識是缺一不可。WordNet相當于一個統籌。之所以有了WordNet，也就有了更多相關應用落地，比如搜索引擎。那么，搜索引擎如何生成相關站點鏈接列表？這要歸功于信息檢索演變進程中兩股強大力量發展：人工智能（尤其是自然語言處理）和眾包。當我們搜索一個信息，得到一系列信息，兩者之間如何對應起來？對于我們所輸入詞匯與大量預測網頁之間關系，計算機算法對此解釋是，主要基于其系統所接受數以億計文本訓練中語言連接頻率。但這并不是信息唯一來源。對于重要話題，專業注解者會強化其語義關系，調整搜索結果和生成結果算法，而通過網絡檢索者（也就是我們）點擊，算法會辨別出哪些鏈接是最佳結果。盡管很不可思議，但這個模型帶來改變世界性成功，也存在一定缺陷。因為搜索引擎給出結果往往不像我們想那樣智能，它們仍然缺乏對人類語言和邏輯真正理解。除此之外，它們有時會重復、加深我們搜索結果中出現偏差，而不是為我們提供新信息或觀點。在研究過程中，美國德克薩斯大學奧斯汀分校信息學院副教授馬修·里斯（MatthewLease）提出一個設想：利用計算機和人類大腦雙重力量，或許能夠創造更加智能信息檢索系統方式。為了將人工智能與注釋者見解以及特定領域資源信息編碼整合在一起，里斯教授及其同事們正在開發一種新信息檢索方案，它將有利于通用搜索引擎以及醫學知識或非英語文本等研發細分領域。8月初，在加拿大溫哥華舉辦計算機語言學協會年度會議上，里斯、德克薩斯大學奧斯汀分校和美國東北大學幾位合作者通過兩篇論文，描述了他們新穎信息檢索系統想法。他們研究借助了德克薩斯高級計算中心超級計算資源。在其中一篇論文中，以博士生AnNguyen為首，他們提出了一種方法，即結合多個注解者輸入信息，來確定所有給出文本中最好注解方案。他們將這種方法用在了兩個問題研究上：分析自由文本搜索描述醫學研究2017 SEO網路行銷-奇寶網路文章，來提取每項研究細節（例如，健康狀況、患者統計信息、治療手段和效果），以及通過識別命名實體分析突發新聞報道來識別事件、人以及所涉及地方。里斯同時提出，在自然語言處理中有一個重要挑戰，即準確地在自由文本中查找所包含重要信息，它將使我們把這些信息提取到數據庫，并將其與其他數據結合在一起，以做出更加智能決策和新發現。相關解決方案是，里斯這些研究人員已經大規模地利用眾包來為醫學和新聞文章注解，以確保其智能系統將能夠更加精準地找到每一篇文章中所包含關鍵信息。習慣上，這些注解歷來都是由相關領域專家完成。然而，近來，眾包已經成為一個以較低成本獲取大量帶標簽數據廣受歡迎方法。可以預見是，這些來自非專業人士注解質量要比那些領域專家注解差，因此評估大眾注解者可靠性是很有必要，而且將這些個人注解整合成一套參考標準一致標簽也很有必要。里斯研究團隊還發現，他們方法可以訓練神經網絡，這樣它就可以非常準確地預測出命名實體，并在未命名文本中提取相關信息。這個新方法改進了現有標記和訓練方法。該方法還為每一位工作人員標簽質量提供了評估，它可以在任務之間轉移，而且對誤差分析和智能路由任務很有用可以識別出每個特定文本最佳注解人選。該圖是一個局部權值共享分類例子，如圖所示，單詞被分為了兩組，里斯研究小組在歸屬于同一組單詞中，隨機地選擇待共享權值后將其嵌入。權值共享限制了系統必須學習自由參數數量，提高了該神經模型效率和精度，并成為了一個靈活結合先驗知識方法。在這一過程中，他們將最好人類知識與機器學習結合在了一起。【貢獻者：張燁（YeZhang）；德州大學奧斯汀分校馬修·里斯（MatthewLease）；美國東北大學拜倫·C·華萊士（ByronC.Wallace）】第一篇論文：LearningtoEffectivelySelectTopicsForInformationRetrievalTestCollections鏈接：https://arxiv.org/pdf/1701.07810.pdf利用現有知識創造更好神經系統模型該團隊另一篇論文以博士生張燁（YeZhang）為首，文章提出，自然語言處理(NLP) 神經模型往往會忽視現有資源，例如WordNet詞匯數據庫。他們提出了一種方法，可以通過權值共享（weightsharing），利用這些現有語言資源，為了自動文本分類改善自然語言處理模型。例如，該模型學習將醫學文章進行分類，將描述臨床試驗研究分類到與臨床醫學問題相關電商SEO優化-奇寶網路定義下。在權值共享下，相似詞匯將共享一個權值其中一部分，或指定數值。權值共享限制了系統必須學習自由參數數量，從而提高該神經模型。

效率和精度，并起到一個靈活結合先驗知識方式。在這個過程中，他們將人類知識與機器學習結合在了一起。神經網絡模型參數有很多，并且需要大量數據去配合它們。里斯因此有了一個想法，如果能夠以某種方式推出一些與其他先驗詞匯相關詞匯，那么就沒必要非要為每個單獨詞匯設置一個參數，而可以將多個單詞配合使用一個參數，這樣所需要學習模型數據就比較少了。這種方法將在沒有大量數據限制情況下實現深度學習成果。他們將一種形式權值共享應用在了一段電影評論情感分析和與貧血癥有關生物醫學搜索中。在分類任務上，相比沒有使用權值共享策略情形，他們方法不斷獲得了改進性能。來自美國東北大學合作者拜倫·華萊士（ByronWallace）也認為，這種方式，相當于在數據驅動神經網絡模型中編寫和開發專業領域知識提供了一個通用框架。【華萊士曾經也是德州大學奧斯汀分校教職工，而且也是德克薩斯高級計算中心（TACC）老用戶。】里斯、華萊士和他們合作者在德克薩斯高級計算中心 Maverick超級計算機上使用GPU(圖形處理單元)對其機器學習系統進行分析和培訓。里斯表示：訓練神經計算模型處理大數據需要大量計算時間。而TACC恰好就成為了一處很棒、很合適資源，而且這不僅僅緣于其強大可用存儲，還得益于其大量節點和可適用于神經模型訓練高效處理速度。據里斯說，除了GPU，TACC部署了英特爾先進處理架構，機器學習庫正在迎頭趕上。盡管許多深度學習庫一直在對GPU 處理進行高度優化，但從長遠來看，一旦其他架構也進行了優化，它們將變得更快。TACC數據密集型計算主管尼爾·加夫尼（NiallGaffney）表示，在TACC 與Caffe（加州大學伯克利分校開發深度學習框架，已被充分應用到了英特爾至強Phi處理器中）進行前期工作中，他們發現，這些CPU 性能差不多與許多人工智能運行時 CPU性能相當。加夫尼認為這相當于一個變革，畢竟它將能夠提供更多可以滿足這些研究人員節點，同時也允許高性能計算機（HPC）用戶可以在他們分析階段利用人工智能，而無需移動到一個不同 GPU啟用系統。通過提高自動信息提取和文本分類核心自然語言處理技術，建立在這些技術上網絡搜索引擎可以繼續提高。里斯已經收到來自美國國家科學基金會(NSF)、美國博物館和圖書館服務研究院(IMLS)和美國國防高級研究計劃局(DARPA) 資助，來改善跨各種任務、規模和設置眾包質量。盡管商業網絡搜索公司投入了大量資源來開發實用、有效解決方案，但行業需求迫使里斯仍然專注于商業應用問題和短期解決方案。這也是為什麼像里斯這樣研究人員得以展開這些高風險、潛在變革性研究之原因。第二篇論文：ExploitingDomainKnowledgeviaGroupedWeightSharingwithApplicationtoTextCategorization鏈接：https://arxiv.org/pdf/1702.02535.pdf來源：phys.org；編譯：科技行者搜索引擎人工智能量體裁云，SAP與成長型企業共話云端管理之道

回上頁