通信人家园

标题: DeepSeek新模型被硅谷夸疯了  [查看完整版帖子] [打印本页]

时间:  2025-10-21 10:21
作者: coffee198375     标题: DeepSeek新模型被硅谷夸疯了

DeepSeek最新开源的模型,已经被硅谷夸疯了!


因为实在太DeepSeek了。3B规模、指数级效能变革、大道至简,甚至被认为把谷歌Gemini严防死守的商业机密开源了。


唯一的问题可能就是被“OCR”命名耽误了。


是的,DeepSeek刚刚开源即火爆的模型就叫:DeepSeek-OCR。


这个模型瞄准的是大模型处理长文本时的算力爆炸难题……虽然模型参数很小,但四两拨千斤,其背后所代表的“用视觉方式压缩一切”的思想,大道至简,既是人类智能的现实,也不断出现在诸如《三体》的科幻作品中。


简单来说,由于一张图能包含大量文字(用的token还更少),所以他们想到并验证了“将视觉作为文本压缩媒介”这一方法——就好比优秀的人看书都是扫一眼就知道内容,不必一字一句读完才理解内容。


一图胜千言。


而且DeepSeek研究后发现,当压缩率小于10倍时(即文本token数是视觉token数的10倍以内),模型OCR解码准确率高达97%;即使压缩率高达20倍,准确率依旧能保持在60%左右,效果相当能打。


更主要的是,DeepSeek再次展现了高效能风格,他们的方法之下,生成训练数据——仅凭一块A100-40G GPU,每天就能生成超过20万页的优质LLM/VLM训练数据。


所以这个研究一经公布,已经快速在GitHub斩获了3.3K star。HuggingFace则已经热榜第二……X上热议,好评声一片。


刚“尖锐”评价过AI现状的卡帕西说:我很喜欢……特别是图像比文字更适合LLM输入,妙啊。


还有人认为这是“AI的JPEG时刻”,AI记忆架构打开了新路径。



时间:  2025-10-21 10:22
作者: coffee198375

还是兔子大道至简。。。。
时间:  2025-10-21 10:44
作者: 不吹不黑

厉害啰!!
时间:  2025-10-21 11:29
作者: wangheu2068

开源3B模型就能引发行业震动,说明技术突破不在于参数规模而在于设计理念。
时间:  2025-10-21 14:56
作者: chenshengqu

不明觉厉
时间:  2025-10-21 15:07
作者: ghbiou

这思路确实有创意啊




通信人家园 (https://www.txrjy.com/) Powered by C114