Vince Liao profile image

Vince Liao

3 Posts

[Data Science] 什麼是混淆矩陣 (Confusion Matrix) -模型評估指標

前言 在機器學習和統計學中,混淆矩陣是一種表示監督式學習模型預測結果的表格,特別適用於分類問題。混淆矩陣可以幫助我們了解模型在不同類別上的表現情況,進而評估模型的效能。 一、混淆矩陣的概念 混淆矩陣通常是一個 N x N 的矩陣,其中 N 是類別的數量。對於二元分類問題來說,混淆矩陣是一個 2x2 的矩陣,包含以下四個重要的元素: True Positive (TP):真陽性,表示模型正確地將正類別樣本分類為正類別。 False Positive (FP):假陽性,表示模型將負類別樣本錯誤地分類為正類別。 True Negative (TN):真陰性,表示模型正確地將負類別樣本分類為負類別。 False Negative (FN):假陰性,表示模型將正類別樣本錯誤地分類為負類別。 二、混淆矩陣的應用 混淆矩陣可以幫助我們計算出許多模型評估指標,包括準確率、精確率、召回率和 F值分數等。這些指標可以幫助我們全面評估模型在不同方面的表現。 準確率(

[BigQuery] 如何建立分區資料表 (partitioned tables)

一、什麼是分區資料表? BigQuery分區資料表是一種在Google Cloud Platform的BigQuery中,將資料表根據特定欄位分割成多個部分的方法,以提高查詢效能和數據管理的效率。像是下圖依照Order_Date欄位將資料表分區。 二、為什麼需要將資料表分區? 隨著業務拓展及時間的累積,BigQuery儲存的資料量越來越多,查詢所需要的花費及時間也會越來越多,儘管在查詢時用WHERE去過濾資料,運算時還是會掃描整張表,花費並不會因此而減少,這時候就需要將資料表進行分區,資料表被分區後能有以下幾個優點: 1. 提高查詢效率 當數據表變得非常多時,執行查詢可能需要大量的時間。分區資料表將數據分成更小的部分,能夠僅查詢感興趣的特定分區數據,可以顯著提高查詢的效率。例如,可以根據日期分區數據,這樣可以只查詢特定日期範圍內的數據。 2. 節省成本 在查詢時,只針對需要的分區資料表進行查詢,可以讓查詢量限縮在選擇的這些分區下。例如,以日期分區的資料表,只查詢特定日期範圍內的數據時,就只會掃描該日期範圍區間內的資料。也可以強制使用資料表的使用者,在進行查詢時,必定要先

[NLP]實作:如何抽取繁體中文文章關鍵字

前言 今天來介紹一個關鍵字抽取方法KeyBERT,雖然目前已經有許多抽取關鍵字的方法,像是TF-IDF、Rake、TextRank和TAKE……等等,KeyBERT的作者希望能夠創造更為簡單易用且輕量的方法,它使用BERT embedding和cosince similarity去尋找文章中最為重要的字詞,它的概念非常簡單,就是將整篇文章與每個字詞一一的計算相似度,與整篇文章相似度愈高的字詞代表是越重要的關鍵字。 以下會介紹如何使用KeyBERT來抽取繁體中文文章中的關鍵字,分為三個部分進行介紹。所有程式碼都在Colab中,大家可以跟著一起實作。 * 第一部分為中文斷詞方法介紹,中文在抽取關鍵字前需要先進行斷詞,中文不像英文可以直接以空白作為分隔形成單字,像是"我喜歡你"斷完詞後會是"我"、"喜歡"、"你"。 * 第二部分為透過KeyBERT模組來進行關鍵字抽取。 * 第三部分介紹embedding模型抽換的方法,除了使用預設的embedding模型,還可以從Hugging Face網站上挑選喜歡的預訓練語言模型來抽換。 中文斷詞 這裡使用CKIP Tagger來