🤖 用 AI 全面優化日常繁重工作~邱允文
🤖 用 AI 全面優化日常繁重工作
第 1 章 【資料整理 AI】 — 免手工、比程式還快, 要整理資料就 call AI!
1-1 用 AI 幫忙處理複雜的表格資料
這個實作主要利用大型語言模型(LLM),如 [Google Gemini] 或 ChatGPT,來理解、重構或清理您貼入的雜亂或不完整的表格資料。
步驟與使用說明詳解
💻 軟體存取:
開啟如 [Google Gemini] 等進階 AI 聊天工具的網站。
📋 貼入資料與背景說明:
將您 Excel、Google Sheets 或任何文件中的複雜、格式不一或需要清理的表格資料直接複製並貼入 AI 聊天框。
使用說明: 在貼入資料前,先向 AI 說明這些資料的背景(例如:這是上個月的銷售記錄,包含產品名稱、數量和客戶 ID)。
✍️ 發出整理指令(Prompting):
明確告訴 AI 您需要它進行的整理任務,例如:重新排序、合併欄位、計算總數、標準化格式等。
使用說明: 指令必須包含輸出的格式要求(例如:請以 Markdown 表格輸出,或直接貼回 Excel 可用的 Tab 分隔格式)。
🔄 檢查與匯出:
檢查 AI 輸出的新表格是否符合要求。
使用說明: 如果有不滿意的地方,您可以立即發出修正指令(例如:請將價格欄位都加上 $ 符號),直到滿意為止。
案例與 Prompt 範例
案例一:清理客戶名單的電話格式
目標: 統一雜亂的電話號碼格式,並移除不完整的資料列。
Prompt 範例:
Prompt: 我貼入了包含客戶名稱和聯絡電話的雜亂清單。請執行以下操作:
將所有的電話號碼統一格式為 (區碼) XXXX-XXXX。
移除任何電話號碼欄位為空或號碼不足八位數的資料列。
請以 Markdown 表格格式輸出,欄位標題為「客戶名稱」和「標準電話」。
細節講解:
定義清洗規則: 明確指出電話號碼的標準格式
(區碼) XXXX-XXXX。資料篩選: 具體要求移除不完整的資料(電話為空或不足八位數)。
輸出格式: 指定使用
Markdown 表格輸出,便於預覽和複製。
案例二:計算彙總並增加分類欄位
目標: 從不同分店的銷售紀錄中,計算產品總銷量,並根據價格為產品分類。
Prompt 範例:
Prompt: 這是一份多天的產品銷售紀錄,包含「產品名稱」、「價格」和「數量」。請幫我:
計算每個產品名稱的總銷售數量。
新增一個名為「價格級別」的欄位。價格高於 500 的標記為「高價」,否則標記為「常規」。
最終結果請按照總銷量由高到低排序,並以 CSV 格式(用逗號分隔)輸出。
細節講解:
數據彙總: 要求 AI 執行分組和加總的計算(計算每個產品名稱的總數量)。
條件判斷與分類: 引入邏輯判斷(價格高於 500 即為高價)來創建新欄位。
多重排序: 要求輸出結果按照特定的欄位(總銷量)進行排序。
案例三:拆分與重組複雜欄位
目標: 將一個欄位中的複合資訊(例如:ID、姓名和日期)拆分到單獨的欄位中。
Prompt 範例:
Prompt: 我有一欄名為「交易標籤」的資料,格式統一為:
[用戶ID]-[姓名縮寫]-[交易日期YYYYMMDD]。請將這一欄拆分成三個獨立的欄位:用戶ID
姓名(假設姓名縮寫是其全名)
交易日期(格式改為 YYYY/MM/DD) 請以標準表格形式輸出前 10 筆拆分後的數據作為範例。
細節講解:
定義輸入結構: 準確描述原始欄位的複合格式(
[用戶ID]-[姓名縮寫]-[交易日期YYYYMMDD])。定義輸出結構: 明確指定三個新的欄位名稱和日期的新格式
YYYY/MM/DD。範例限制: 僅要求輸出前 10 筆資料,用於快速驗證 AI 的拆分邏輯是否正確。
1-2 請 AI 從繁雜的 PDF 抓數據、彙整成表格
這個實作利用具備文件處理能力的 AI 工具(例如:[Google Gemini] Pro/Advanced、[Adobe Acrobat AI Assistant] 或 ChatGPT Plus)直接上傳 PDF 文件,讓 AI 成為您的數據提取器。
步驟與使用說明詳解
💻 軟體存取與上傳:
開啟支援 PDF 上傳和分析功能的 AI 工具,例如 [Google Gemini] Advanced 或 [Adobe Acrobat AI Assistant]。
點擊上傳按鈕,將包含需要提取數據的 PDF 文件上傳。
🔍 鎖定資料範圍:
使用說明: 如果 PDF 文件很長,請先告訴 AI 您要提取的資料位於文件的哪個部分(例如:第 5 頁的「市場調查結果」章節,或所有圖表下方的數據)。
✍️ 發出提取與彙整指令:
指令應包含要提取的內容和最終的表格結構。
使用說明: 例如:「請提取 PDF 中所有提及的成本數據和對應的季度,並將其彙整成一個包含『季度』、『專案名稱』和『總成本(美元)』三欄的表格。」
📊 格式化輸出:
再次強調輸出格式,以確保數據可以直接複製到試算表中使用。
案例與 Prompt 範例
案例一:從財報 PDF 中提取關鍵財務指標
目標: 快速從 PDF 格式的年度財報中,提取幾個核心的財務數據進行比較。
Prompt 範例:
Prompt: 這是一份公司年度財報 PDF。請只從損益表的部分提取以下數據,並彙整成表格:
近三年(2022, 2023, 2024)的淨利潤(Net Income)。
近三年的營收(Revenue)。 表格欄位請依序是:年度、淨利潤、營收。
細節講解:
限定範圍: 明確指出提取數據的來源區域(損益表部分)。
時間限定: 鎖定特定的時間範圍(近三年)。
精確指標: 使用準確的財務術語(淨利潤、營收),避免 AI 抓取其他不相關的數字。
案例二:從複雜合約 PDF 中提取關鍵條款
目標: 從一份長期服務合約 PDF 中,提取與費用相關的所有細節。
Prompt 範例:
Prompt: 這是一份服務合約 PDF。請仔細閱讀所有關於「費用與支付」的條款,並彙整成一個包含四欄的表格:
費用項目名稱
金額或計算方式
支付頻率(例如:每月、每年、一次性)
違約金比例(如果合約有提及)
細節講解:
鎖定條款: 針對性地要求 AI 關注特定主題(費用與支付)。
多維度提取: 不只抓取金額,還要求提取計算方式和頻率,建立完整的費用視圖。
條件性提取: 要求提取「違約金比例」(即使可能不存在,也指示 AI 查找)。
案例三:從技術手冊 PDF 中提取產品規格數據
目標: 從產品技術手冊 PDF 中,提取多個型號的規格參數進行比對。
Prompt 範例:
Prompt: 這是一份 A 系列產品的技術手冊 PDF。請提取所有型號(A-100, A-200, A-300)的規格數據,彙整成一個比較表格。 必備欄位包含:型號名稱、電池續航力(小時)、最大記憶體(GB)和建議零售價(TWD)。如果數據不存在,請填寫「N/A」。
細節講解:
多目標提取: 同時針對多個特定對象(所有型號)進行數據提取。
明確參數: 精確列出所需的技術參數,排除冗餘信息。
容錯處理: 要求對缺失的數據使用
N/A標記,確保表格的完整性。
1-3 用 AI 代理人 (AI Agent) 全自動抓網頁資料並整理成表格
這個實作需要使用到具備自動化流程和網頁抓取(Web Scraping)能力的 AI Agent 工具,例如 [Microsoft Power Automate] 搭配 AI Builder、[Airtable Automations] 搭配 Scripting,或專業的 Web Scraping AI 平台。
步驟與使用說明詳解
💻 軟體存取與 Agent 建立:
選擇一個支援 Web Scraping 的 AI Agent/RPA 平台(例如 [Microsoft Power Automate])。
🔗 設定目標網址與動作(Action):
輸入您想要抓取數據的目標網頁 URL 或網頁清單。
使用說明: 如果是需要登入或點擊操作才能取得的數據,您需要使用 Agent 平台的**錄製(Record)**功能來設定點擊流程。
✍️ 定義抓取元素與表格結構:
這是最核心的步驟。您需要告訴 Agent 程式:「在哪裡抓」 和 「抓什麼」。
使用說明: 您可能需要使用平台提供的視覺化工具或簡單的 CSS Selector 來識別網頁上的重複性元素(例如:產品清單、新聞標題、價格欄位)。
🗂️ 設定資料整理與輸出流程:
指示 Agent 在抓取數據後,如何進行整理(例如:移除 HTML 標籤、統一日期格式)。
使用說明: 設定最終的輸出目的地,例如:自動寫入 Google Sheets 的特定表格、發送 Email 彙報,或存儲為 CSV 文件。
案例與 Prompt 範例
案例一:追蹤競爭對手的即時價格變動
目標: 每天自動抓取三個主要競爭對手網站上特定產品的即時價格。
Prompt 範例(給 Agent 的配置指令):
Agent 指令: 設定一個每天上午 9 點執行的排程任務。
依序訪問 [競爭對手 A 產品頁]、[競爭對手 B 產品頁]、[競爭對手 C 產品頁]。
在每個頁面上,抓取
產品名稱和當前的銷售價格兩個數據點。將抓取的數據連同當前日期和時間,新增到 Google Sheets 的「價格追蹤」表格中的新列。
細節講解:
排程自動化: 設定 Agent 的執行頻率(每天上午 9 點)。
多頁面處理: 需設定 Agent 依序處理多個不同的 URL。
數據整合: 要求 Agent 除了抓取網頁數據外,還需自動添加系統生成的時間戳。
案例二:自動彙整行業新聞和摘要
目標: 每週自動抓取特定行業新聞網站的頭條新聞,並使用 LLM 摘要後彙整。
Prompt 範例(結合 Web Scraping 與 LLM 處理):
Agent 指令: 設定一個每週一上午執行的任務。
訪問 [特定行業新聞網站] 的首頁。
抓取首頁上前五條新聞的
標題和新聞連結 URL。對於每條新聞,請將其內文傳給 [Google Gemini],要求生成一個不超過 50 字的核心摘要。
將「標題」、「摘要」和「URL」整理成表格,並以電子郵件發送給「部門主管」。
細節講解:
串接 AI 服務: 這個 Agent 流程結合了兩個服務:Web Scraping(抓取標題/URL)和 LLM(生成摘要)。
數量限定: 限制抓取數量(前五條新聞)。
郵件輸出: 設定最終的輸出動作為發送電子郵件,實現一鍵彙報。
案例三:從電商平臺抓取使用者評論數據
目標: 抓取某電商產品頁面上的使用者評論文本,以便進行情感分析。
Prompt 範例(給 Agent 的配置指令):
Agent 指令: 執行一次性數據抓取。
訪問 [特定電商產品頁面]。
模擬點擊「查看更多評論」按鈕,直到頁面顯示所有評論(或達到 100 條評論)。
抓取每條評論的
使用者 ID、評分星級和評論的完整文本內容。將所有抓取的數據輸出為 JSON 格式(用於後續的程式分析)。
細節講解:
模擬互動: 要求 Agent 執行模擬點擊(處理「載入更多」按鈕)。
數據量控制: 設定抓取的上限或條件(達到 100 條評論)。
程式化輸出: 要求輸出格式為
JSON,這適用於需要將數據導入數據庫或分析工具的進階應用。
留言
張貼留言