雅虎香港 搜尋

搜尋結果

  1. 2024年2月26日 · 1 隨著越來越多的企業和組織期許能夠將 LLMs 應用到生活以及工作的各個領域,如何產生客製化的 LLMs 便成為人們關注的焦點,而名為「檢索增強生成」 (Retrieval-Augmented Generation,縮寫為 RAG)就是值得我們重視的其中一項技術。 本文將介紹 RAG 的運作方式、哪些使用情境適合導入 RAG? 以及為什麼 NVIDIA、Microsoft 等軟硬體科技巨頭都爭相投入這個領域。 (編按:想要進一步知道 RAG 實作與產品化要考量的面向,可以閱讀這篇 〈為我的筆記加上 AI:RAG 實作經驗分享與四大產品化挑戰〉 。 什麼是 RAG? 跟模型微調有什麼差別?

    • 簡介
    • 進入正題:跨語言模型
    • 常見的跨語言模型有哪些?
    • 應用場景
    • 總結

    NLP(Natural Language Preprocessing)又稱為自然語言處理,由於工作專案中需要處理跨語言語料的問題(e.g. 文本當中包含了英文、法文、德文),因此開啟了 Cross-Lingual Word Embedding(跨語言詞嵌入) 的研究領域,Word embedding 是將字詞映射到一個向量空間,是一種 Word representation 的方式。 下面是 2018 年自從 BERT 問世以來,與預訓練語言模型相關的代表性工作,本篇設定為跨語言模型所涉及的一些基本概念的整理,黃框是文章後面會介紹到的模型,希望對大家初探跨語言數據的預處理有所幫助。

    經過前面介紹,我們的終極目標是—— 在同一個向量空間產生跨語言文本的向量表示。更明確地細分,我們可以將文本顆粒度拆分為三種輸出:字詞(Word)/ 句子(Sentence) / 文本(Document)。研究大多集中在字詞級別(Word-level alignment),近期發現在句子級別上( Sentence-level alignment)可以透過 sub-word 建立一個跨語言共享的詞表,達到讓冷門語料也能受益於相近語系的高資源語料,例如後面會介紹的跨語言模型 LASER。 此外,訓練數據對於我們的輸出 Embedding 的質量也非常重要,主要可分為平行語料(Parallel data)以及可比語料(Compatible Data)。

    1. M-Bert

    BERT 是 Google 當年發表後在 NLP 界風雲叱吒的模型,有關於 BERT 的細節,我強烈推薦此篇文章:進擊的 BERT:NLP 界的巨人之力與遷移學習。 至今仍有許多 NLP 的任務是基於 BERT 去做改良的研究。而 M-BERT 的結構與單語 BERT 一樣,使用共享的 Wordpiece 表示,Wordpiece 是一種將字詞拆成 Subword,借鑒了機率的方法去找到字根字尾進行編碼。M-BERT 使用了 104 種語言進行訓練,陸續也釋出和改良了一些表現更好、更輕量的 pre-trained model 可以下載使用,可以參考 M-BERT 的 Github 列表。 論文連結:Cross-lingual ability of multilingual bert

    2. LASER

    可以將多達 90+多種語言投射到單一的向量空間,是 Facebook AI Research ( FAIR ) 開源的 Toolkit,使用方法可以參考 Github。 核心思想是以單一模型獲得跨語種的句子表示向量(Sentence embedding),模型使用的是 Encoder — Decoder 架構,構建一個跨語種的 BPE ( Byte Pair Encoding ),在 Encoder 端內部有一個雙向的 LSTM,將前向和後向隱向量拼接,以 max-pooling 的方式產生 Sentence embedding 餵進給 Decoder ; 在 Decoder 端,透過 Encoder 端的 Sentence embedding 、前一個句子的 BPE 以及輸出語種 id ,最終能產生目標語言的句子向量。 LASER 做到能夠以單一模型去輸出跨語種句子向量的關鍵是它構建了一個跨語種的 BPE,讓模型對語種不敏感,且儘可能地運用不同語種之間的關係,研究發現跨語種的 Vocabulary 經由 BPE 表示之後,他們的 Symmetrized KL 距離在相同語系的語...

    3. Efficient multi-lingual language model fine-tuning

    單語言模型的 Fine-Tuned 加上跨語言模型(LASER)的訓練引導,進行知識蒸餾(Distillation),其研究結果在 MLDoc 與新聞領域有關的測試集上,都能獲得比 M-BERT 以及 LASER 更好的表現。MultiFit 的模型架構如下: ‍ 第一步引用了目標語言的單語預訓練模型(以 Wiki 語料作為訓練數據),第二步訓練一個 LASER 的語言分類模型,預測出的語種作為一個偽標籤,以 Bootstrapping 的方法對單語模型進行 Fine-tuned;最後結合兩者,使用 LASER 的語言分類模型的預測結果,引導單語模型做訓練,提取了領域相關的特徵參與下游分類模型的訓練。 論文連結:MultiFiT: Efficient Multi-lingual Language Model Fine-tuning

    跨語言的詞向量表示主要可以做為 NLP 跨語言任務的模型輸入,進行文本分類、句法結構、跨語言理解等任務,同時也可以做到跨語言知識遷移(Cross-Lingual Transfer),例如一個以英語為主的訓練模型,可應用在另一個語言上,因為他們的向量表示是共享同一個向量空間。 提到跨語言知識遷移,就必須介紹由 Facebook 開源的 XNLI ( Cross-Lingual Natural Language Inference ) ,這是一個很經典用來研究跨語言理解的數據集,為模型在不同語言之間進行遷移提供了橋樑。前面提到的 XLM 與 M-BERT 都曾使用它衡量其跨語言向量的表現。XNLI 數據集涵蓋了 15 種語言,去判斷兩句話之間是蘊含(Entailment)、中性(Neutral)...

    以上就是跨語言向量表示的綜述筆記,如果想了解更多理論與研究細節,強烈推薦參考資料第一篇論文,作者群包含了 Sebastian Ruder,我剛接觸 NLP 領域時,很喜歡看他的部落格,可以了解當前 NLP 的技術發展以及未來趨勢,當然還有他的 Github! 看到這邊,你是否對跨語言模型躍躍欲試了呢?下面是我所整理的一些可以直接上手的 Open Source: 1.跨語言向量表示 LASER ( PyTorch ) / XLM ( PyTorch ) / M-BERT ( Google 、Hugging Face) 2.常見的預訓練詞向量 1. 英文:Word2vec ( Google )、GloVe ( Stanford )、fastText ( Facebook )、ELMo ( 哈工大...

  2. 2024年4月3日 · 一、GitHub Copilot簡介. 基本概念 :GitHub Copilot是由GitHub與OpenAI聯合開發的人工智慧寫程式助理。 它利用機器學習模型,根據開發者的註釋和已有程式碼,提供程式碼建議和補全。 功能展示 :例如,當您輸入一段註釋描述您想要執行的功能時,Copilot能夠自動生成相對應的程式碼片段。 這不僅提升了寫程式的速度,也有助於解決複雜的寫程式問題。 二、GitHub Copilot的優點. 效率提升 :通過自動生成程式碼,Copilot大幅節省了寫程式的時間,尤其在處理常見或重複性任務時。 學習資源 :對於初學者和經驗豐富的開發者而言,Copilot提供的程式碼示例和建議是學習新技巧和語言的寶貴資源。

  3. 2023年10月2日 · 首頁 Blog. AI 人工智慧. Prompt Engineering 提示工程是什麼? 新手必學指南. 發佈日期: 2023 年 10 月 2 日 作者: ALPHA Camp. 內容目錄. 什麼是 Prompt Engineering? Prompt Engineering 的重要性. 快速掌握 LLM 應用全局觀. Prompt Engineering 的基本原則. OpenAI 的官方 Prompt 指南:6策略獲得更好結果. 總結. 什麼是 Prompt Engineering? Prompt Engineering 是指設計和構建一個提示或問題,以指導機器生成所需的內容或回答。 這種技術主要應用於自然語言處理(NLP)領域,用於控制語言模型的輸出。

  4. ALPHA Camp 2016 年畢業校友、全端網路開發線上實戰營的助教毅,大學畢業後在工地工作,靠著驚人的努力與毅力,現在在澳洲擔任全端工程師。 他如何辦到的? 讓我們聽他娓娓道來… ‍. 我大學是讀電子系的,雖然都是工科,但和程式完全無關,所以我本來也不會寫程式。 我擁有繪圖的專長,會畫藍圖、3D 模型等,但不喜歡待辦公室,所以我大學一畢業就去做工地。 第一年做雜工,也做品管,工作內容大概就是到處走,檢查哪裡做不好。 工作一年後,我考上工地主任執照。 從一塊平地到大樓,中間的各環節都是工地主任的工作,包含規劃工作進度、算物料(鋼筋、灌漿等)、鷹架安全、和不同工程組溝通協調…等,壓力蠻大的。

  5. 2024年3月29日 · Communication strategy & Data communication. 結語. 免費點我下載完整數據分析案例. 在這個數據驅動的時代,能夠有效解決問題的能力是非常寶貴的。 本文將以實際案例為基礎,探討如何培養解決問題的能力,特別是在數據分析的環境下。 我們會聚焦在「定義問題」與「提出假設」這兩個核心環節,並詳細解析其目標、方法和具體案例。 數據思維:解決問題的五個步驟.

  6. 2023年8月8日 · 發佈日期: 2023 年 8 月 8 日 作者: ALPHA Camp. 內容目錄. 數據治理是什麼? 企業為什麼要做? 企業怎麼做數據治理? 沒做過的企業如何開始? 在醫療或金融等資料較敏感的產業,如何妥善管理數據,讓管理單位放心? AI 產生的「偏見」能被管理嗎? 從印尼最大電商 Tokopedia,有哪些數據治理經驗可以分享? 新加坡政府推動數據治理,經驗如何? ChatGPT 崛起後,數據治理有什麼轉變與新挑戰? 企業做數據治理,不同角色如何分工? 誰該對資料負責? 結語:企業如何推動數據治理? 關鍵字補充. 3 位在美國與新加坡、有豐富數據與 AI 領域經驗專家管其毅、Angus 與 Koo,帶大家瞭解「數據治理」是什麼? 對企業為什麼重要? 如何開始執行? 不同產業有什麼挑戰?

  1. 其他人也搜尋了