本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。
作者 | 香草
编辑 | 李水青
智东西12月6日报道,今天凌晨,在旗下ai助手copilot发布一周年之际,微软宣布copilot迎来三大重磅更新,包括新模型、新搜索以及代码解释器,图文能力、代码能力大幅升级。简单来说,就是chatgpt plus能干的活,升级后的copilot几乎都能干,并且还免费。
此次更新,copilot不仅即将支持openai最新的gpt-4 turbo模型,还将文生图模型dall-e 3进行了全面升级,从而提供更高质量、更准确的图像。
搜索方面,copilot推出两项新功能,分别从多模态、意图理解方面对搜索引擎进行加强。代码解释器目前推出简单版,可以自然语言生成代码,并支持在沙盒环境中运行,后续还将支持上传和下载文件。
ai邮件自动化工具answera创始人保罗·库弗特(paul couvert)于社交平台x上分享了此次升级后的copilot与chatgpt plus的功能对比。从图中可以看出,copilot几乎提供了所有chatgpt plus的功能,甚至在生成图像数量、网页搜索速度等方面更胜一筹。
最关键的是,copilot仍然免费,这让月费20美元(约合人民币143元)的chatgpt plus显得有些缺乏性价比。
▲copilot与chatgpt plus功能对比(图源:x@itspaulai)
一、接入openai最新模型gpt-4 turbo,dall-e 3大升级
模型方面,copilot即将接入openai的最新模型gpt-4 turbo,这意味着copilot将升级至128k上下文窗口。微软称,该模型目前正在小范围测试,并在未来几周内广泛集成到copilot中。
copilot还将提供升级后的dall-e 3模型,生成图像质量更高、更准确。
下图是dall-e 3升级前后生成图像的对比,提示词为:一只逼真的剑龙正在由美甲沙龙修整其骨质板块。
▲dall-e 3升级前后生成图像对比(图源:微软)
可以看出,升级后的dall-e 3对剑龙的皮肤纹理、皱纹的刻画更加细致和逼真,背景中的建筑更具立体感,整张图像的光影层次也有所提升。
下图是另一组示例,来自微软微广告和网络服务部门首席执行官米哈伊尔·帕拉欣(mikhail parakhin),提示词为:从高处俯瞰,鲸鲨在夜间静水中的皮艇下方游动。细节丰富。
▲dall-e 3升级前后生成图像对比(图源:微软)
升级后的dall-e 3为图像赋予了更多细节,描绘出了水下的景象,也通过光影表现出了皮艇与鲸鲨之间的距离感。相比之下,左边的画面有些过于平面。
二、ai搜索推出两大更新,深度搜索提效10倍
在搜索功能上,copilot此次推出了两项更新。
首先是多模态搜索(multi-modal with search grounding)。微软基于自主开发的ai模型prometheus,将gpt-4v的视觉能力、bing图像搜索以及网络搜索数据相结合,以提供更好的图像理解体验。
▲prometheus多模态工作原理(图源:微软)
在微软提供的示例中,用户上传了一张火箭发射的图像,并询问发射时间。
copilot首先对图像进行分析,并提示“出于隐私保护,将隐藏图中的人脸”。在识别出图中的信息后,copilot开始搜索“月船3号(chandrayaan-3)的发射时间”。
最后,copilot生成回答:“根据您提供的信息,这张图片中的火箭来自月船3号任务。它于2023年7月14日由印度空间研究组织(isro)从萨蒂什·达万航天中心发射。”
▲多模态搜索功能预览(图源:微软)
微软称,传统的多模态系统能够以通用的方式描述图中的内容,但结合在线搜索,copilot可以在识别图像信息的基础上提供更多问题的答案。该功能目前已经推出。
第二项新功能为深度搜索(deep search)。
微软称,推出该功能主要的原因是在遇到一些复杂、细致或具体的问题时,现在的搜索引擎有时无法理解用户的期望。
深度搜索建立在bing现有的网络索引和排名系统之上,并基于gpt-4进行增强,将搜索查询扩展为更全面的描述,包括理想的结果集应包含的内容。
当遇到一些不明确或有歧义的查询时,例如“积分系统在日本如何运作”,这里的积分可能有多种含义。深度搜索会利用gpt-4来查找所有可能的意图,提供一个消歧窗格,用户可以从中选择自己所需要的描述来代替。
▲深度搜索应对不明确的查询(图源:微软)
微软称,深度搜索使用各种信号来确定每个结果的相关性和质量,并考虑主题匹配程度、详细程度,来源的可信度、新鲜度和受欢迎程度等因素,其搜索效率是普通搜索的10倍,但速度上最多可能需要30秒才能完成。
该功能目前仍在测试和改进中,微软将在全球范围内随机选取用户试用。
三、推出代码解释器,edge可一键总结视频内容
copilot还推出了代码解释器(code interpreter),支持更准确的计算、编码、数据分析、可视化、数学等任务。
据介绍,copilot代码解释器将编写代码来回答用户的自然语言请求,并支持在沙盒环境中运行代码,同时预装了许多流行的数据科学工具和库,包括pandas、numpy、matplotlib等。
用户也可以向copilot上传和下载文件,将自己的数据和代码与网络搜索结果相结合。
代码解释器目前推出了简单版本,暂时还不支持上传文件或是复杂的代码功能,预计将在几周时间内逐步升级新版本。
▲copilot代码解释器(图源:微软)
在edge浏览器中,copilot侧边栏即将推出带重写菜单的内联撰写功能,可一键将生成的文本填入网页输入框,还可选择想要更改的文本要求copilot重写;同时推出视频理解和问答功能,通过侧边栏,用户可以总结或询问当前观看的视频,该功能目前已开放。
▲使用edge中的copilot总结视频内容(图源:微软)
此外,据微软cvp、bing工程和产品主管乔迪·里巴斯(jordi ribas)透露,还有一个“令人兴奋的新功能”:笔记本(notebook)界面。该界面的入口位于搜索、对话旁边,用户可以专注于提示创建、细化和迭代输出。它具有记忆功能,还接受长达18k字符的长文本提示。
该功能目前也在小范围测试,尚未完全推出。
▲copilot的笔记本功能界面(图源:微软)
结语:微软copilot再进化,留给谷歌的时间不多了?
上周,chatgpt刚刚过完一周年纪念日,现在copilot也迎来“一岁生日”。从此次发布的更新可以看出,copilot的功能日益强大,几乎能媲美月费20美元的chatgpt plus。
在此前的openai“政变”事件中,微软一边为其“撑腰”,一边力争董事会席位。虽然最后,微软只获得了一个无投票权的观察席位,但也算是争取到了一些掌控权。目前二者仍保持紧密合作的联盟关系。
而另一边,微软长期的竞争对手谷歌在ai方面虽然暂时落后,但也传出最快将在本周公开预览大模型gemini的消息。作为谷歌十年来最大的ai项目,gemini的能力能否赶上gpt-4,让我们拭目以待。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
notice: the content above (including the pictures and videos if any) is uploaded and posted by a user of netease hao, which is a social media platform and only provides information storage services.