Welcome, AI enthusiasts.
欢迎来到小互的AI日报
11月6日小互AI日报更新:
OpenAI 开发者大会更多详细信息再曝光
E4S:一个精细化的面部交换(换脸)技术
RoboGen:全自动化的生成模拟机器人学习系统
李开复创立的AI公司零一万物 估值超10亿美元
ElevenLabs推出Eleven Turbo v2版本
GPT-4V-Act :能模拟人类上网的多模态AI助手
阅读时长: 6 minutes
01
—
OpenAI 开发者大会更多详细信息再曝光:
128k上下文的GPT-4 turbo API
GPT-4 视觉 API
代码解释器API
DALLE-3 API
TTS API
包含了价格信息
爆料是发在OpenAI社区的,帖子内容已经被隐藏了!看来准确性很高,今晚大家都要熬夜了吧!
02
—
E4S:一个精细化的面部交换(换脸)技术
与传统的换脸技术不同,E4S更加精细和高级。它不仅能让你在照片或视频中换脸,还能确保换出来的脸在形状、纹理和光照方面都非常自然和逼真。
它能够非常精确地处理脸部的每一个小细节,包括你脸上的每一颗痣、每一条皱纹,甚至是光照和阴影。
项目地址:e4s2023.github.io
03
—
RoboGen:一个完全自动化的生成模拟机器人学习系统
04
—
李开复创立的AI公司零一万物 估值超10亿美元
零一万物发布了首款开源大模型Yi系列,包括Yi-34B和Yi-6B。
Yi-34B在Hugging Face英文测试榜单中位列第一,在C-Eval中文能力排行榜中超越所有开源模型。
200K上下文窗口,能处理40万汉字超长文本输入。能一次处理两本《三体》小说、理解超过 1000 页的 PDF 文档。
05
—
ElevenLabs推出涡轮增 Eleven Turbo v2版本
它结合了高质量的文本到语音技术和最新的低延迟模型架构。用户可以在几乎没有等待的情况下获得音频输出。
快速的同时保持流畅自然的高品质音质。
不到400毫秒的响应时间,实现快速语音合成。
方便集成的API:可将TTS集成到各种应用中。
体验:elevenlabs.io/turbo
06
—
⌨️ GPT-4V-Act
一个多模态AI助手,能够像人类一样模拟通过鼠标和键盘进行网页浏览。
它可以模拟人类浏览网页时的行为,如点击链接、填写表单、滚动页面等。
它通过视觉理解技术识别网页上的元素,就像人眼一样,能够“看到”按钮、文本框、图片等,并理解它们的功能和用途。
这个工具的目的是让AI能够自动完成一些需要人工操作的任务,从而提高工作效率,帮助人们更容易地使用各种网页界面。
GitHub:github.com/ddupont808/GPT-4V-Act
07
—
Anna’s 档案馆
Anna的档案馆称他们获得了读秀图书数据库,包含750万本、总计359TB的中文非小说书籍的收藏,这个数字超过Library Genesis (530万本)。
如果哪家大模型公司能给他们提供OCR和文本提取服务,将会获得Anna的档案馆一年的独家访问权。https://https://annas-blog.org/duxiu-exclusive-chinese.htmlhttps://annas-blog.org/duxiu-exclusive-chinese.html
另外他们还有数百万本以前未发行(批量)的英文书籍,大部分也是非小说类书籍,也需要OCR服务!
历史项目记录:xiaohu.ai
感 阅
谢 读
领取专属 10元无门槛券
私享最新 技术干货