仔細看了DeepSeek-OCR論文,二維信息優勢。在大模型時代,漢字強於英文又多了個證據。
1. OCR圖片文字識別,本身意思不大。DeepSeek-OCR就是識別率高,但也不是高到不可複製,主要還是用少得多的視覺token,就實現了很高識別率。100個token,就能基本代表一個1000個token的文字圖片頁面,還原出97%,10倍壓縮率幾乎沒有丟失信息。
2. 有些專家認為,應該把我們日常輸入給大模型的較長的提示詞,用圖片編碼,需要的token數量就少多了,推理訓練效率會高得多。這是因為token數量在大模型內部是平方關係,要對所有token相互建立關聯。這裡就有個很有意思的問題,為什麼用圖像來放文字,居然能比文本有更好的壓縮率?
3. 先要理解基礎知識:文本壓縮率。一種是無損壓縮,基於香農信息熵的結論。英文字母出現概率各有不同,純文本無損壓縮的理論極限是0.7–0.8 bit/字符,經常出現的用少數bit代表,出現多的單詞組合可以進一步優化。漢字純文本壓縮的理論極限是4.2 bit/漢字(或者0.53 byte/漢字)。如“的”的出現概率最高,有4%,可以用“100”這3bit來代表它;“一”的概率有2%也很高,用“1010”4個bit代表;“龘”概率極低,用1111111010來代表,10個bit。這種只考慮單字出現概率的,漢字編碼大約是9.6比特每字。考慮更多詞語組合,極限就是4.2比特。
4. 可見,如果搞純文本無損壓縮,單個漢字需要的bit數量比英文要高多了。這是自然的,漢字數量本來就是比英文字符多得多。實踐中,英文純文本的無損壓縮率遠高於中文;若統一用“每原始字節”做分母,英文純文本壓縮可輕鬆到 8–10倍,中文通常在 2–5倍區間。現在最厲害的純文本壓縮算法zpaq,對英文可到0.9 bit/字符,有9倍壓縮率,同樣算法對中文是約4.5 bit/漢字,壓縮率5倍。
5. 但這是無損壓縮,英文相對漢字有優勢。如果有損壓縮,中文就比英文有優勢了。一個常見應用是對一段文字生成“摘要”。如果刪30%字數,中文新聞摘要的“召回率”下降約 8 %,英文下降 15–20%;中文用70%字數就能有95%的關鍵信息召回,而英文 用70%字數只有85%召回,15%丟了。理論上,中文是語素文字,一個字就能承載完整語素;英文是音素拼寫,一個詞由多個字母組成,刪掉字母就會丟信息。在高刪率場景下,中文優勢明顯,刪字不刪義。
6. 個人經常幹這種事,先寫一段中文,但發現表述太囉嗦,刪掉很多文字意思表達完全沒少。而對英文幹這種事,就不容易了。再深入思考,顯然是因為中文是二維的,英文字母是一維的。而這,在大模型token壓縮里,就能轉成二維信息優勢,說明用圖片去理解信息,會有更高的壓縮比。
7. DeepSeek-OCR的理論成果是,把文本token信息轉成圖片後,token數量可以有10倍的壓縮,1000個文本token變100個視覺token,維持97%的高信息還原。一種想法是,把1000個文本token,用更少的文本token來壓縮代表,在大模型里推理,會是什麼效果?這就是DeepSeek-OCR成果震撼的地方。之前Q-VAE/VQ-GAN這麼幹了,文本token數量減成十份之一,只有60–75%的信息能還原!這兩種都是把token離散理解的,在文本任務里,常把1000 個字符壓成100個離散索引,但解碼時僅用decoder自回歸,字符級準確率約60–75%。而DeepSeek-OCR做10倍token壓縮能有97%!
8. 這個哲學意思是什麼?文字轉成圖片,就是文字信息從一維變二維了,類似英文變中文了。DeepSeek-OCR會把圖片切成16*16的小方塊,一個個掃過去處理。這就類似於在看二維漢字,但方塊里的信息要複雜多了。對這種二維信息,進行壓縮,就能有很好的壓縮比例。
9. DeepSeek-OCR能對圖片二維文字信息能進行10倍的“高保真”壓縮,因為它有個大招:只保留關鍵信息。其中的DeepEncoder不是把整頁文字全編碼,而是把高頻細節、生僻符號、行列對齊這些“高熵”的關鍵殘差信息放進 token;而低熵背景、重複樣式被簡單地處理掉了,因為負責解碼的是個很強的有30億個參數的大語言模型(LLM),這個LLM靠着對語言的熟悉能把這些常見信息全都猜出來!LLM猜不出的,才讓DeepEncoder花很多token編碼。簡單類比理解,就是二維的中文,用少數文字猜意思,比一維的英文要厲害多了。
