12月18日XiaoHu.AI 日报更新
️ PixelLLM:Google 的高级视觉语言模型
EmbedAI:定制化的 ChatGPT 嵌入工具
DomoAI:照片和视频动漫化工具
FunSearch: 创新的问题解决循环
SceneWiz3D:根据文字描述创建3D场景
阅读时长:6 mins
️ PixelLLM:Google 的高级视觉语言模型
Google 开发的 PixelLLM 是一种新型的视觉语言模型,它不仅能够对图片进行详细描述,还能精确指出图片中每个词汇对应的具体位置。
简单来说,就是它不仅能告诉你图片里有什么,还能准确指出这个东西在图片的什么位置。
例如,如果图片中有一只猫和一只狗,PixelLLM不仅能识别出“猫”和“狗”,还能指出猫和狗在图片中的具体位置。
这种能力使得模型在处理需要图像和文字紧密结合的任务时表现得更加出色,比如在一张图片中找到特定的物体或区域,并对其进行描述。以下是 PixelLLM 的主要特点、工作原理和应用概述:
主要特点
• 像素级词汇对齐:能够准确指出图片中物体的具体位置。
• 多功能性:可以根据文字提示专门描述图片的某个部分,也能根据指定位置生成描述。
• 指称定位任务:能够在图片中找到并指出特定物体或区域。
• 位置条件字幕生成:根据图片中特定位置的信息生成描述。
• 密集对象字幕:对图片中的每个物体生成详细描述。
工作原理
• 架构组成:包括图像编码器、提示编码器和提示特征提取器。
• 图像和文本整合:将图像特征和文本提示整合为大型语言模型的输入。
• 逐词定位:通过多层感知机(MLP)层实现每个生成文本标记的坐标位置预测。
• 训练数据:使用词-像素对齐数据进行训练,包含图像叙述和注释者注意力轨迹。
• 多任务适应性:架构通用,适应不同的视觉语言任务。
更多信息
• 项目及演示:https://jerryxu.net/PixelLLM/
• 论文:https://arxiv.org/abs/2312.09237
• GitHub:coming soon...
EmbedAI:定制化的 ChatGPT 嵌入工具
EmbedAI:允许你使用自己的数据训练ChatGPT,并将其嵌入到自己的网站、应用中。
• 个性定制:支持在各种数据源上训练ChatGPT,可以通过文件、网站、Notion文档甚至YouTube对ChatGPT进行训练。
• 广泛用例:包括智能客服、个性化学习助手、技术支持助手、医疗保健助手和财务聊天机器人等。
• 无代码平台:即使是没有编程背景的用户也能轻松创建和训练定制的AI聊天机器人,可以看做是RAG(检索增强生成)的无代码版本。
• 外观自定义:可以使用自定义的标志、颜色和样式来个性化AI聊天机器人的外观。
• 多种嵌入方式:聊天机器人可以作为聊天气泡、嵌入代码或链接进行分享。
• 多语言支持:支持100多种语言的查询和响应。
• 易于集成:可以通过API与应用程序连接。
更多信息
• 网站:https://thesamur.ai
• 介绍:https://blog.llamaindex.ai/how-to-train-a-custom-gpt-on-your-data-with-embedai-llamaindex-8a701d141070
DomoAI:照片和视频动漫化工具
DomoAI 是一个创新的工具,能够将上传的照片和视频转换成指定的动漫风格。它适用于艺术爱好者、动漫迷以及希望以新颖方式展示内容的用户。以下是 DomoAI 的主要功能和支持的转换类型:
主要功能
• 文字转图片:超过10种模型,专注于动漫和写实风格。
• 图像转图像:图片转动漫、动漫转现实图片
• 图像到视频:从图片生成短动画。
• 视频到视频:将视频转换成动漫风格
如何使用
感兴趣的可以加入他们Discord频道体验:
• 加入 https://discord.gg/TrZBzj4x
• 进入generate-video频道
• 输入 /video 并选择命令
• 上传您的文件
• 编辑输入提示并按 Enter
• 选择风格视频时长
• 等待结果
FunSearch: 创新的问题解决循环
FunSearch 是一个由 DeepMind 开发的系统,结合大型语言模型 (LLM) 和自动评估器,以创新的方式解决问题。它通过迭代过程不断改进解决方案,融入新知识,直至找到有效且实用的答案。以下是 FunSearch 的具体工作过程:
1.生成初始解决方案:FunSearch 利用 LLM 生成一个或多个初始解决方案,这些方案基于对问题的理解和分析。
2. 评估和反馈:自动评估器检查这些解决方案的有效性和可行性。如果解决方案不符合预期或存在改进空间,评估器提供反馈。
3. 迭代改进:根据评估器的反馈,FunSearch 对初始解决方案进行修改和改进。这个过程是迭代的,解决方案经过多轮评估和改进。
4. 融入新知识:在迭代过程中,FunSearch 融合新的知识或数据,以丰富和完善解决方案。新知识可能来自最新的研究、数据更新或其他相关领域。
5. 最终解决方案:经过多次迭代,FunSearch 生成一个或多个高质量的解决方案,这些方案既有效又具有创新性和实用性。
更多信息
SceneWiz3D:根据文字描述创建3D场景
它能仅靠文本描述就能合成高保真3D场景,会自动布局场景,比如自动安排物体位置、大小、方向,确保场景看起来真实和连贯。
而且还允许动态地改变场景中的物体,比如添加或移除物体。
举例解释
假设你想创建一个3D场景,场景是一个有大窗户的卧室,窗外是日落景象,整个场景带有浮世绘(Ukiyo-e)风格。在传统的3D建模中,你需要手动设计每一个细节,包括房间的布局、窗户的大小、光线的方向,甚至是墙上的浮世绘风格装饰。这个过程非常耗时且需要专业知识。
使用SceneWiz3D,你只需要提供一个简单的文字描述,比如“一个有大窗户的卧室,窗外是日落景象,整个场景带有浮世绘风格”。SceneWiz3D会自动解析这个描述,并利用其混合3D表示技术来创建场景。它会自动放置卧室中的物体(如床、桌子、椅子),调整窗户大小以适应日落景象,并应用浮世绘风格到整个场景。
此外,如果场景中的某些角落或细节在普通的3D建模中难以处理,SceneWiz3D的RGBD全景扩散模型会提供额外的视角和深度信息,确保整个场景的几何质量和视觉效果都是高质量的。
最后,如果你想对场景进行调整,比如增加一个椅子或改变窗户的位置,SceneWiz3D允许你轻松地进行这些调整,而无需重新设计整个场景。
主要特点包括
1、混合3D表示:它能够将单个物体和整个场景以不同的方式表示,使得场景更加真实和详细。
2、自动布局:使用一种叫做粒子群优化的技术,能自动安排场景中物体的位置和方向。
3、改善几何质量:为了解决一些难以观察到的场景部分(比如角落)的问题,它使用了一种特殊的模型来提高这些区域的几何质量。
4、对象配置:可以确定每个物体在场景中的位置、大小和方向。
5、额外的视角:除了普通的视角,还使用了一种特殊的模型来提供额外的视角和深度信息,帮助理解整个场景的结构。
6、场景操纵:允许用户动态地改变场景中的物体,比如添加或移除物体。
• 项目及演示:https://zqh0253.github.io/SceneWiz3D/
• 论文:https://arxiv.org/abs/2312.08885
• GitHub:https://github.com/zqh0253/SceneWiz3D(coming soon)
有多少个普金?
俄罗斯大学生用AI做了个普金的AI分身
在年度记者会上问普金你究竟有多少个替身?
普金还是挺会玩的
领取专属 10元无门槛券
私享最新 技术干货