全始全终网

昨日,全球最强端侧多模态模型再次刷新,仅用8B参数,击败了OpenAI的GPT-4V和谷歌的Gemini Pro,而且,其OCR长难图识别刷新SOTA,图像编码速度暴涨150倍,而这个全球最强端侧多模

国产AI杀疯了!以小博大对战GPT,或为对抗AI iPhone的最强后援

昨日,国产全球最强端侧多模态模型再次刷新,杀疯仅用8B参数,小博击败了OpenAI的大对对抗的最GPT-4V和谷歌的Gemini Pro,而且,强后其OCR长难图识别刷新SOTA,国产图像编码速度暴涨150倍,杀疯而这个全球最强端侧多模态模型不是小博国外大厂的出品,而是大对对抗的最国内大模型研发实力最头部的公司面壁智能,最新打造出来的强后面壁小钢炮MiniCPM-Llama3-V 2.5。

8450b80a-dfc4-4b23-a491-f77039a02c01.jpg

据了解,国产面壁小钢炮MiniCPM-Llama3-V 2.5仅凭8B量级的杀疯端侧模型,在评测平台OpenCompass得分65.1,小博与闭源模型Qwen-VL-Max或可一战,大对对抗的最综合性能直接力压重量级选手GPT-4V和Gemini Pro。强后在OCR综合基准测试中,又取得了725分的成绩,大幅远超GPT-4V,并在大模型的“顽疾”幻觉能力上也获得了重大改进,还有各种基准测试,数据都远超GPT-4V和Gemini Pro。

7f033a5fb1144e018af14027ab64d7ca.jpg

简单来说,MiniCPM-Llama3-V 2.5能看、能读、速度快、更会思考,而且,还用最小的参数撬动了最强性能!那么,抛开这些基准测试,这个小钢炮到底能给我们普通人带来啥?首先,它能支持30+种语言,包括德语、法语、西班牙语、意大利语、俄语等主流语言;其次,它支持难图、长图、长文本的精准识别,比如你在看一个吃瓜长文,总因为“太长不看”而烦恼,丢给它,它就能快速汇总出关键内容;如果是一张英文版的图文信息,它也能根据你的需求,给出非常精准的汇总;而且,它能够在一张拥有多种要素信息的图片中,“一眼”看懂图片的主题内容,并推理出图片的来源信息,再把“思考”后的信息整理汇总给我们。当它搭载到手机上,将能直接在设备端快速、实时运行,减少数据泄露风险,而且,即使没有网络连接,也能正常工作,还适用于多种设备,或成为真正的AI“贴身助理”。

56fc53f9efa441d9a0f7207236b10fde.jpg

访客,请您发表评论:

© 2024. sitemap