Google 的 Gemini 1.5 Pro 现在能够“聆听”

文章来源：企鹅号 - 一数上码

在近期的Google Next活动中，谷歌引起了科技界的广泛关注。这不仅仅是因为其广受期待的Gemini 1.5 Pro版首次面向公众预览，更因为这一版本的更新使其成为了一个能够聆听的模型。谷歌这一举措无疑是人工智能领域的一大飞跃：通过对上传的音频文件进行处理，Gemini 1.5 Pro能够无需转录即可从例如财报电话会议或视频音频中提取信息。如此一来，它在性能上甚至已超越了之前的旗舰模型——Gemini Ultra。

但它的发展并不止步于此。Gemini 1.5 Pro的升级，除了赋予其“耳朵”之外，还在于性能的极致提升。该模型能够理解复杂的指令，且免除了对模型的微调需求，这一点对于快速和精准地处理大量数据至关重要。然而，与此同时，我们也不能忽视这样一个事实：目前，没有Vertex AI平台访问权限的人们无法接触到Gemini 1.5 Pro。这构成了一种新的独特性和排他性，也意味着对知识和技术的掌握可能正变得日益集中化。

同时令人瞩目的是Imagen 2的更新──这个文图生成模型不仅在Gemini的图像生成能力中发挥了重要作用，更增添了inpainting和outpainting功能，允许用户从图片中添加或移除元素。不得不说，这种功能并非全新发明，Stability AI的Stable Cascade以及Getty的Generative AI by iStock等其他模型已经采用了类似的技术。但谷歌这次的更新，特别是对于SynthID数字水印功能的普及，为创作内容的版权认证和追踪增添了一层保护。

然而，谷歌的这一系列更新并非没有争议。例如，Gemini在生成照片时出现历史人物不准确的问题，这引发了对人工智能应用伦理和准确性监控的讨论。此外，为了确保其AI响应与最新信息保持一致，谷歌正在公开预览一种以Google搜索为基础的响应方式。这种做法看似简单，却解决了大型语言模型可能提供过时信息的问题，涉及到的不仅是信息的实用性，也关乎信息的真实性和时效性。这些升级与改进表明，谷歌对于其人工智能产品和服务的定位，不再仅仅局限于其功能性，还包括了对其影响力和社会责任的深度反思。

综上所述，Google的Gemini 1.5 Pro和Imagen 2的更新不仅标志着谷歌对人工智能技术的持续投资和创新，也反映出整个行业对AI模型全面能力提升的追求。从长期来看，这对于我们如何与人工智能互动以及它如何塑造我们的生活方式将有着深远的影响。我们期待着更多的创新和改变，并希望他们能带来更广泛的积极效应。

发表于: 2024-04-102024-04-10 08:10:00
原文链接：https://page.om.qq.com/page/Os05vRFxosLwlnLnGS9w546A0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Google 的 Gemini 1.5 Pro 现在能够“聆听”

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐