通信人家园
标题:
DeepSeek最新王炸模型
[查看完整版帖子]
[打印本页]
时间:
2026-1-29 11:37
作者:
coffee198375
标题:
DeepSeek最新王炸模型
DeepSeek开源了其面向OCR场景的专用模型DeepSeek-OCR 2,技术报告同步发布。这一模型是对去年DeepSeek-OCR模型的升级,其采用的新型解码器让模型看图、读文件的顺序更像人,而不是像机械的扫描仪。
简单来说,以前的模型阅读模式是从左上到右下,地毯式扫一遍图片,DeepSeek-OCR 2则能够理解结构,按结构一步步读。这种新的视觉理解模式,让DeepSeek-OCR 2可以更好地理解复杂的布局顺序、公式和表格。
在文档理解基准测试OmniDocBench v1.5上,DeepSeek-OCR 2拿到了91.09%的得分,在训练数据和编码器都不变的前提下,较DeepSeek-OCR提升了3.73%。与其他端到端的OCR模型相比,这已经是SOTA成绩,但其表现要略逊于百度的PaddleOCR-VL(92.86%)OCR管线。
同时,在相似的视觉token预算下,DeepSeek-OCR 2在文档解析方面的编辑距离(编辑为正确文本所需的工作量)低于Gemini-3 Pro,这证明DeepSeek-OCR 2在确保优越性能的同时保持了视觉token的高压缩率。
DeepSeek-OCR 2兼具双重价值:既可作为新型VLM(视觉语言模型)架构进行探索性研究,也能作为生成高质量预训练数据的实用工具,服务于大语言模型的训练过程。
时间:
2026-1-29 11:38
作者:
coffee198375
确实好用。。。。
通信人家园 (https://www.txrjy.com/)
Powered by C114