Token 是什麼?搞懂 AI 怎麼讀你的文字,省錢又寫得更準
Token 是 AI 處理文字的最小計算單位,不等於字也不等於詞。這篇從分詞原理、中英文效率差異,到 2026 年各大模型費用對比,一路講到 Token 跟 AI 搜尋引用機制的關係,讓你從懂概念直接用到 SEO 策略和 prompt 設計上。
Token 到底是什麼?
你每次打開 ChatGPT 或 Claude 輸入文字的時候,AI 其實沒有在「讀文字」。它看到的是一串數字。把文字轉換成數字的過程,就是 Tokenization(分詞),而每一個被切出來的最小單位,就叫做 Token。
Token 不等於字,也不等於詞。「台灣」可能是 2 個 Token,「SEO」可能是 1 個 Token,「策略」可能是 1 個 Token,但「啊」這種助詞有時候自己就佔一個 Token。Token 是 AI 語言模型處理文字的基本計算單位,大概就像樂高積木:每一塊積木不是最小的原子,但是組成整個結構的基礎。
要理解為什麼 AI 有時候回答會被截斷、為什麼用中文 prompt 比英文貴、為什麼不同 AI 的費用差這麼多,根本的解釋都在 Token 這裡。
很多人用了一年多 AI 工具還不懂 Token 是什麼。說實話,不懂也能用,但一旦你搞清楚了,你看待 prompt 設計和 AI 費用的方式會完全不一樣。
AI 怎麼把文字切成 Token?
把文字切成 Token 的程序叫 Tokenizer(分詞器)。不同的 AI 公司用不同的分詞器,同樣一句話,切出來的 Token 數量可能差很多。
中文 vs 英文 Token 效率對比:同樣資訊,繁體中文的 Token 成本約為英文的 1.5-2 倍
三種主要分詞演算法
目前主流的 Tokenization 演算法有三種,背後的邏輯各有差異。
BPE(Byte-Pair Encoding) 是最廣泛使用的演算法。原本是 1994 年發明的資料壓縮技術,2016 年被 Sennrich 等人引入 NLP 領域。基本邏輯是:從最小的字元開始,反覆合併在訓練資料中出現最頻繁的相鄰字元對,直到詞彙量達到目標大小。結果就是:常見的詞組會被壓縮成一個 Token,罕見的詞會被拆成多個 Token。OpenAI 的 GPT 系列、Anthropic 的 Claude 都用這個底層邏輯。
tiktoken 是 OpenAI 自己開發的 BPE 實作。和 Google 的版本有一個技術細節上的差異:tiktoken 先把文字用 UTF-8 編碼成 bytes,再在 byte 層級做合併;Google 的 SentencePiece 則是在 code point(字符)層級做合併。這個差異對最終 Token 數量有影響,但對一般用戶來說不需要太深入。
SentencePiece 是 Google 開發的分詞函式庫,Gemini 系列使用這個方案。設計上強調語言無關性,不需要針對每種語言預先設定規則,直接根據訓練語料的統計特性決定如何切詞。
三種方法都是基於「哪些字元組合最常一起出現」來決定如何分組。本質上是在統計壓縮和語意保留之間找平衡點。
中文和英文為什麼 Token 數不一樣?
這是很多台灣用戶會遇到的問題:為什麼感覺中文輸入比英文更貴?
英文的 Token 效率比較高,大致上 1 個 Token ≈ 0.75 個英文單詞,或大約 4 個字元。中文就差很多,1 個中文字大概需要 1.5 到 2 個 Token。原因很直觀:現有的主流 tokenizer 都是用英語為主的資料訓練的,常見的英文詞組早就被壓縮成高效的單一 Token,但中文的每個字相對獨立,能被「壓縮」的機會少很多。
更麻煩的是,繁體中文的情況比簡體更差。繁體字在訓練資料中的出現頻率本來就比簡體低,分詞器沒有足夠的繁體字對去做合併,結果很多繁體字只能單獨成為一個 Token 甚至被切成多個 Token。這意味著同樣的資訊,用繁體中文寫的 prompt 可能比用英文寫貴上 1.5 到 2 倍。
這件事值得 SEO 人員和內容創作者記住:如果你的系統 prompt 很長、要重複呼叫很多次,考慮用更精簡的繁體表達,或者評估部分系統指令是否可以用英文寫。關於如何把 AI 用在內容生產流程裡,可以參考 AI 內容 SEO 策略 這篇的實務分析。
Token 與模型能力的關係
Token 不只是計費單位,它也直接決定了模型能力的上限。
LLM 詞彙量進化:詞彙量愈大,token 碎片化愈少,語意理解能力也隨之提升
Context Window(上下文視窗) 就是模型在一次對話裡能同時處理的最大 Token 數量。你把 1,000 個字的文章貼進去,加上你的問題、加上 AI 的回答,全部加起來不能超過這個上限。超過了,最早的對話內容就會被截斷,AI 就會開始「忘記」前面說過的事。
Context Window 的大小這幾年增長得很快。GPT-4o 的上限大約是 128K tokens,對應大概 10 萬個英文字。Gemini 1.5 Pro 一度達到 100 萬 tokens。這個擴展讓 AI 能處理整本書的內容,也讓多輪的長對話成為可能。
但更有意思的是模型詞彙量(Vocabulary Size)的變化。Llama 2(2023 年)的詞彙量是 32K tokens,Gemini 3(2025 年)已經擴展到 262K tokens,3 年增加了 8 倍。詞彙量更大意味著同樣的文字可以用更少的 Token 表示,碎片化更低,模型的語意理解也會跟著提升。
有一個研究結果我覺得很說明問題:COLM 2025 發表的 SuperBPE 演算法,僅靠改進 tokenizer,就讓同一個模型在 MMLU 基準測試上提升了 8.2%,同時讓 Token 數量減少了 33%。單純靠分詞效率,不改模型架構,就能有這樣的表現差距。這代表 tokenizer 的選擇本身就影響了模型的智慧,而不只是計費數字。
我自己在測試不同模型時就有這種感覺:處理繁體中文長文本的時候,不同模型的理解品質差異很大,有部分原因就是詞彙量和分詞效率不同,不全是「模型本身強不強」的問題。
Token 的費用結構
幾乎所有主流 AI API 都以 Token 為計費單位。理解費用結構,才能做出合理的工具選擇和預算規劃。
四種 Token 類型
現在主流的 LLM API 通常把 Token 分成四種類型,費用各不相同。
Input Token(輸入 Token):你發送給 AI 的所有內容,包含系統提示(system prompt)、對話歷史、你的問題。這是費用裡相對便宜的部分。
Output Token(輸出 Token):AI 生成的回覆。通常比 Input Token 貴 4 到 10 倍,因為生成的計算量遠大於讀取。如果你的使用場景需要 AI 輸出大量文字,這塊是費用的主要來源。
Cached Token(快取 Token):如果你的系統 prompt 每次都一樣(比如你固定的助手設定),可以啟用 Prompt Caching。快取後的 Input Token 費用只需要原來的 10%。對於重複呼叫同一套系統 prompt 的應用來說,省費效果非常顯著。
Reasoning Token(推理 Token):這是 OpenAI o1/o3 系列特有的,模型在「思考」過程中會產生中間推理 Token,這些 Token 也計費,但不會顯示在輸出裡。如果你用的是標準模型(GPT-5、Claude Sonnet、Gemini),不需要考慮這個。
2026 主要模型費用對比
以下是 2026 年 3 月的主流模型 API 費用(每百萬 Token 報價,以美元計),資料來源:TLDL LLM API Pricing 2026。
| 模型 | Input(每百萬 Token) | Output(每百萬 Token) | Output 換算 NT$(約) |
|---|---|---|---|
| GPT-5.2 | $1.75 | $14.00 | 約 NT$455 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 約 NT$490 |
| Gemini 2.5 Pro | $1.25 | $10.00 | 約 NT$325 |
| Gemini 2.0 Flash-Lite | $0.075 | $0.30 | 約 NT$10 |
2026 年 LLM API Token 費用對比,最平與最貴的方案成本差距超過 50 倍
NT$ 換算以 USD 1 = NT$32.5 估算。
這張表說明一件事:同等工作,選對模型,費用可以差 50 倍以上。如果你的任務只需要整理格式、分類文字,用 Gemini Flash-Lite 就夠了,完全不需要動 GPT-5.2 的預算。
更進一步:Batch API 可以再省 50%,Prompt Cache 可以再省 90%,兩個疊加最多可以省下 95% 的費用。對於需要大量呼叫 AI 的應用(比如自動化內容審查、批次 SEO 分析),這個省費策略非常值得研究。
2026 年 LLM 定價已經降了超過 80%,競爭讓這個市場變得對用戶越來越有利。但我的觀察是:很多人還是在用最貴的模型做最簡單的工作,因為沒有意識到選擇差異有這麼大。你現在知道了。
懂 Token,對 AI 搜尋和 SEO 有什麼實際影響
這個問題,大多數介紹 Token 的文章都沒有認真回答。Token 知識對一般用戶是「省錢」和「用好 AI」,但對 SEO 人員來說,Token 的概念跟你的排名策略是有直接連結的。
Token 效率與 AI 搜尋排名的五個關鍵連結點
AI 搜尋(Google AI Overview、Perplexity 這類)在引用你的頁面內容時,實際上是在模型的 context window 裡處理你的頁面 Token。它不會讀整個網站,甚至不一定讀完整篇文章,它在有限的 Token 配額裡評估哪個段落最能回答用戶問題。
Google 的 Passage Ranking 系統是以段落層級建立索引的,每個段落相當於一個獨立的「被引用候選單位」。模型在評估這個段落時,有多少有效的語意信號能在有限的 Token 數內傳遞出去,決定了這個段落被選中的概率。說白了:同樣的字數,中文段落的 Token 密度比英文高,但語意效率也相對較低,這意味著中文內容需要更精準的結構和更密集的實體關鍵字佈局。
具體到操作層面,有幾個思路值得記下來。
第一,每個段落前幾句話要先給答案。AI 搜尋在解析段落時,類似 passage ranking 的 chunking 機制,偏好的是「問題在前、解釋在後」的結構,而不是「鋪陳背景再給答案」。這跟人類讀者喜歡摘要在前的習慣是一致的。
第二,系統性地清理你的 AI prompt 裡多餘的 Token。如果你用 AI 輔助寫文章,精簡系統 prompt 不只省錢,也讓 AI 把更多 context window 空間留給真正重要的輸入內容,輸出品質往往也會提升。
第三,理解 context window 的上限,有助於設計更好的長篇內容結構。AI Overview 在處理長文時,若前幾個 H2 就把核心答案說清楚,被引用的機率遠高於把重點藏在文章下半段。
關於 AI 搜尋的引用機制如何影響你的 SEO 策略,我們有一篇更完整的分析:AI Overviews 最佳化指南。而 AI SEO 的整體框架,可以從 AI SEO 是什麼 這篇開始看起。
你的內容有沒有進入 AI 搜尋的引用名單?這不只是文章品質的問題,也跟語意架構設計有關。我們的 AI SEO 顧問服務會從 token 效率、段落結構、語意密度三個層面,幫你診斷當前內容在 AI 搜尋中的可見度問題。
常見問題
Token 和字(Character)有什麼不同?
字是人類書寫系統的最小視覺單位,Token 是 AI 模型的計算單位。兩者通常不對齊。英文的 "hello" 是 1 個 Token,但 5 個字元;中文的「台」「灣」各自可能都是 1 個 Token,也可能合在一起是 1 個 Token,取決於分詞器的訓練結果。不能用字數直接估算 Token 數,要用實際工具測算,例如 OpenAI tiktoken。
一個中文字等於幾個 Token?
大致上,1 個中文字 ≈ 1.5 到 2 個 Token(以主流英文訓練的分詞器來說)。繁體中文的情況略差,因為繁體字頻率比簡體低,能被分詞器「壓縮」的機會更少。英文則是 1 個 Token ≈ 0.75 個單詞,效率高很多。所以同樣資訊用繁體中文寫,Token 數量大概是英文的 1.5 到 2 倍。
Token 數量怎麼計算?有工具嗎?
OpenAI 的 tiktoken 函式庫可以在 Python 環境裡精確計算 GPT 系列模型的 Token 數。如果你只是想快速估算,通常 1,000 個英文字 ≈ 750 個 Token,1,000 個中文字 ≈ 1,500-2,000 個 Token。各家 API 也有在文件裡提供 Token 計數器。
Context Window 是什麼?和 Token 有什麼關係?
Context Window 是模型在一次處理裡能「看到」的最大 Token 總量,包含你的輸入、對話歷史、還有 AI 輸出。超過這個上限,最舊的內容就會被捨棄。GPT-4o 的 context window 是 128K tokens,大概能裝下 10 萬個英文字或一本中型小說。
為什麼 AI 有時候「忘記」前面說了什麼?
就是 context window 滿了。當對話累積的 Token 總量超過上限,模型只能保留最近的內容,最早的對話就消失了。解法是:定期開新對話、把必要的背景資訊放在系統 prompt 裡(可配合 prompt caching 降低費用),或換用 context window 更大的模型。
Output Token 為什麼比 Input Token 貴?
讀取文字(input)的計算量遠小於生成文字(output)。生成每一個 Token 都要跑完整個模型的推理,輸出 1,000 個 Token 比輸入 1,000 個 Token 消耗的 GPU 算力大概多 5-10 倍。這個成本差異直接反映在定價上。
Cached Token 是什麼?怎麼用?
Prompt Caching 是一種費用優化機制:你的系統 prompt 第一次傳給模型後,模型把它的處理結果存起來,後續的呼叫如果系統 prompt 沒變,就直接用快取,費用只有原來的 10%。適合系統 prompt 固定、大量重複呼叫的場景,比如客服 AI、自動化內容處理流程。Claude 和 OpenAI 目前都支援這個功能。
中文 Prompt 一定比英文貴嗎?
理論上是,但實際影響取決於你的使用場景。如果你的 AI 主要處理繁體中文內容,很難完全避開。但可以優化:系統 prompt 考慮用英文寫(清楚的英文指令模型也完全理解),輸出語言指定繁體中文,這樣只有輸出部分有語言效率差,輸入成本可以降低。
不同 AI 模型用的 Tokenizer 都一樣嗎?
不一樣。OpenAI GPT 系列用 tiktoken(BPE 的實作);Gemini 用 Google 開發的 SentencePiece;Claude 用 Anthropic 自己的 BPE 分詞器。因此同樣一段文字,在不同模型算出來的 Token 數會有差異。在跨模型比較費用時,記得分開計算,不能直接用同一個 Token 數套到所有模型。
懂 Token 對寫 SEO 文章有什麼幫助?
有幾個地方。第一,你會知道段落前幾句話決定了 AI 搜尋引用這個段落的概率,所以要先給結論再展開說明。第二,你在用 AI 生成輔助內容時,能更精準地設計 prompt,讓 AI 在有限的 context window 裡輸出你真正需要的內容。第三,對長篇文章的結構設計有更清楚的判斷:把高密度的語意段落放在前面,對 AI 搜尋的可見度有正向影響。