首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【研究】国外研究:一种可以通过文本描述直接生成视频的新方法

最近,一种新的方法可能会电影编剧拒绝来自大型电影制片厂的巨额预算和强大资源 — 依靠文本进行视频生成(Video Generation from Text)。...但也许在未来,这样的技术可以在娱乐之外找到用途,比如帮助目击者重现车祸或犯罪现场等。 这个算法来自于最近的一篇论文(见下方链接)。它通过训练一个判别生成模型提取文本中静态和动态的信息。...框架图 人工智能(AI)在识别图像的内容并提供标记的方面做的越来越好。这里的算法就是另一种从标签产生图像的方式。少数甚至可以从单个电影画面中预测下一个画面。...但是从文本创建图像,并使它按照文本的描述运动,这样的方式还是第一次。 “据我所知,这是第一部看得过去的文本转视频作品。虽然并不完美,但至少他们看起来像是真正的视频。...此外,该网络还可以制造出一些不现实的视频,例如“ 在雪上航行 ”,以及“ 在游泳池打高尔夫球 ”等。 ? ? ?

1.2K90
您找到你想要的搜索结果了吗?
是的
没有找到

ChatGPT 会开源吗?

不得不承认 ChatGPT 确实有点东西,然后我就问了一嘴它有没有开源。...它还提供了一个统一的接口,可以用户定义任务、训练智能体和评估性能。简单来说就是 Gym 提供问题和环境,你用 AI 框架来解。就像刷算法的网站提供算法题和测试用例,你十分方便地刷算法一样。...它使用了许多深度学习技术,可以生成文本内容,也可以进行文本分类、问答等任务。GPT 与传统的机器学习方法不同,它通过预先训练来学习大量文本数据,然后可以进行各种自然语言处理任务。...它的训练方法非常有效,在许多 NLP 挑战赛中取得了优异的成绩。...最后,虽然 ChatGPT 并不完美但已经我重新审视 AI 的能力,甚至开始畅想那种:用类似与人对话的方式操作计算机,一种全新的人机交互方式。

1.6K20

ML&DEV | 算法工程师内功修炼

模型的选择能力 在现实场景,在确定需要建模的场景,众所周知好的模型选择会让我们更快更好地解决问题,然而问题在于,怎么根据现实场景选择模型,这就是一个非常复杂的问题。...慢慢来拆解问题,首先是,我们怎么识别这个场景的特点。因为我们识别场景特点是为了模型服务的,所以我们往往需要对模型有充分的理解,再来识别在这个场景。...特征交叉切勿维度较高就要考虑一些类似FFM之类压缩的方法序列依赖则要用RNN、LSTM之类的内容,或者是采用一些positional embedding的方法也行,超短文本的序列信息不足可以考虑小模型之类的...模型之外的方法 根据现在的经验来看,很多人上来就是这模型那模型的,很大程度上这个人只会模型,没有别的方法可以解决问题了,这就体现一个人知识的匮乏,这个事情就和医生只会开刀切除是一样的,一个小感冒其实没必要开刀...首先,要对整个领域的常规操作有一定的理解,可能比较深的,例如推荐系统,业界的常规操作会你去关注用户的兴趣,不同时间跨度可以考虑;冷启动物料和用户有没有服务好,之类的,这些应该指导自己思考优化方向。

54830

档案文件如何才能发挥更大的价值

档案价值是什么 说到价值,我们最直接能类比的就是钱,钱的价值就是能用来交换自己所需要的产品或者服务,而要让钱发挥更大的作用,政府就要想办法更快地流动起来,钱能配置到更高效的地方,或者钱能到更需要的人的手里...而要实现快速检索,有两个技术就非常关键: 2.1 多模态文档数据的半结构化与结构化:半结构化主要就是将各种文档转成文本数据,主要涉及ocr及语音识别等技术,而结构化技术主要就是信息抽取,人脸识别,行为识别...而这个快的关键就是识别功能前置,就是说在抽取前,系统已经把可以识别的东西都已经识别好了,那这个关键信息抽取,可能就是秒级能完成的,有统一的中台基座很重要。...是否可以只分享文档中需要分享的内容? 分享出去的文档会不会被第三方截获? 分享出去的文档有没有隐私信息?如果有,会不会被泄露? 如果文档被泄露到了网络上,是否可以追踪到是谁泄露出去的?...感觉通过文档的相似性性推荐是可以达到这个目的的,但是普通的计算距离的方式,需要构造一种合理的距离公式,或者可以考虑标注数据训练一个判别模型,计算两个文档是否相关。

38120

AAAI 2020 | 中科院自动化所:通过识别和翻译交互打造更优的语音翻译模型

端到端的语音翻译模型在理论上可以缓解级联系统的缺陷,它通过直接建立源语言语音到目标语言文本的映射关系,一步实现跨模态跨语言的翻译,一旦技术成熟,理论上可以语音翻译更准更快,极大地提升模型的性能。...因此,我们希望设计一种交互式的模型,语音识别与语音翻译两个任务可以动态交互学习,实现知识的共享和传递。...方法 针对上述问题,中科院自动化所自然语言处理组博士生刘宇宸、张家俊研究员、宗成庆研究员和百度公司合作提出了一种基于交互式解码的同步语音识别与语音翻译模型。如图2所示, ?...为了进一步提升语音翻译的性能,我们采用了一种wait-k的方法,使得语音翻译任务相比语音识别任务延迟k个词语进行,以获得更多更可靠的文本信息作为辅助。...表2 wait-k对翻译性能的影响 为了进一步提升语音翻译的性能,我们语音翻译任务相比语音识别任务延迟k个词语进行,以获得更多的文本信息作为辅助。

86320

AI将会给教育带来什么?

可以想象一下,到那个时候,我们去银行办理业务,柜台里做的都是机器人;去餐厅吃饭,都是机器人为我们服务。 那么AI在教育领域里都能做些什么呢?...用AI评分,不仅非常公平公正,而且更快。因为人们在做非常繁重的工作时容易疲劳,很难保持前后的统一标准,但是对于机器来说却是没有问题的。所以,AI能够使教育更加高效和公平。...别不相信,AI能够分析作文主题立意是否比较好,能够识别出优美的句子,而且还能够识别错别字,判断卷面是否整洁。 这是怎么做到的呢?...事实上还是从原始的纸质试卷开始的,通过扫描仪把试卷变成计算机里的图片,然后再把图片中的文字识别文本,结合老师的评分,把这些信息输入到计算机中。...当然,这些反馈不是为了监视学生上课有没有做小动作,而是为了教与学之间形成一种良性的互动。

1.7K50

基于GAN的验证码识别工具,0.5秒宣告验证码死刑!

近日,英国兰卡斯特大学、中国西北大学、北京大学的计算机科学家们共同开发了一种AI系统,能够在短短0.5秒内识别出多种验证码。...图中数据为该系统与现行识别器对各网站验证码识别准确率的对比,可以看到,大部分测试中的成功识别率都得到了大幅度提升 这套系统不需要收集和标记数以百万计的验证码文本数据,只需要500组数据就可以成功学习。...可以看到,第一项的模型表现达到100%识别,超过了真人 早期基于文本的验证码(如本文缩略图所示)是该技术的第一次迭代。但是,到目前为止,我们可能更习惯于使用范围更广的、基于交通标志的验证码。...这种不断变化的状态,面向验证码识别的训练数据的收集成为一个棘手的任务。...我们的研究成果提供了一种以更低的成本构建验证码识别器的新方法。因此,它对现有的验证码体系构成了真正的威胁,因为它可以更快的速度地学习验证码的解算器。

52320

重建「巴别塔」:谷歌推出全新端到端语音翻译系统

这一神奇的模型叫做 Translatotron,它不仅可以实现端到端的语音翻译,还可以比传统的串联模型更快地完成翻译,并避免一些复杂过程所导致的「并发症」。...这种系统系统通常可以分为三个部分:将源语音转换为文本的自动语音识别、将得到的文本翻译为目标语言文本的机器翻译以及从翻译文本生成目标语言语音的文本 - 语音合成(TTS)。...然而,这种 “三步走” 的方法能否再简化一下? 答案是肯定的。近日,谷歌提出了一种新的转换系统 ——Translatotron,可以实现源语音到目标语音的直接转换,还能保留源语音的声音特征。...该系统没有将任务分为多个阶段,因此增加了一些传统级联系统无法比拟的优势,如推理速度更快、自然而然地避免识别和翻译之间的复合误差、翻译后更容易保持源语音的声音特征以及更好地处理无需翻译的单词(如名字和专有名词...论文地址:https://arxiv.org/abs/1904.06037 摘要:谷歌展示了一种基于注意力的序列到序列神经网络,该网络可以直接实现从一种语言到另一种语言的语音转换,而无需依赖中间的文本表征

71740

百度智能搜索到底有多智能?

而事实上,甚至在人工智能未成显学之时,为了搜索结果更快、更精准、更个性化,搜索领域的巨头们就已经着手将机器学习的方法引入到搜索引擎中。...该算法可以基于语义分析和词库联想,帮助用户更快地搜索冷门的搜索结果。 而如今在NLP领域大火的BERT,也已被部署到谷歌搜索当中。...而这或许也是智能化搜索在用户层面最直观的体现——在百度App中,你可以体验语音搜索、拍照搜索、实时翻译、植物识别、视频搜索等丰富的搜索方式。...除了前面提到的跨模态语义理解,在语音搜索上,百度搜索还集成了语音识别、语音合成等多项AI技术,搜索引擎能“听”会“说”,不仅能够听清、听懂,还能深入理解语义,给出绘“声”绘色的最佳搜索答案,搜索引擎与用户之间的交互方式变得更加自然...“帧视频”能延伸知识信息的密度,短视频的知识含量浓缩到“帧”的颗粒度,推动短视频成为更好的知识获取的载体。 ? 智能搜索不只是搜索 说了这么多,有没有觉得日常的搜索背后,涉及到的信息量属实庞大?

50130

人性化的UI按钮设计技巧,来了解一下?

现代人越来越离不开智能设备 面对屏幕上无数的按钮 点还是不点是个问题 不知道大家有没有发现,按钮越多,我们点击得越慢。...按钮的顺序不是为了被看到,而是为了更快的被点击。将最重要的按钮放在第一位,而不是根据阅读顺序从上往下放置,是十分反人类的。 ?...文本按钮还会用户产生困惑,分不清这是按钮还是信息,这种不确定性会他们直接跳过这些按钮。 除了文本按钮,点击区域太小也会人感到不知所措。...所以把文字放在按钮形状里面能够有效人觉得这是一个按钮,并引导人点击。 用颜色推进点击 通常首选项的按钮都是很容易被识别的,因为它要引导用户达到目的。...文本的粗细 不要以为掌握了以上技巧就可以放松了,我们可以做更多,来优化细节。跟用不同明度的颜色一样,不同优先级的文本也应该有相应的变化。 ? 不同选项的文本,用不同粗细来表示。

81010

今日 Paper | 动态手势识别;领域独立无监督学习;基于BERT的在线金融文本情感分析等

目录 抓取新物体的领域独立无监督学习 动态手势识别的短时卷积网络 一种基于BERT的在线金融文本情感分析和关键实体检测方法 基于语音增强和注意力模型的鲁棒说话人识别 新时代的深度学习调参,从拒绝参数初始化看人品开始...这篇论文提出了一种新的无监督学习算法来选择有效抓握区域。在经过坐标对齐方法处理后,新方法应用K均值聚类方法到图像平面以识别该区域。...这篇论文的贡献是提出了一种基于3D密度卷积网络(3D-DenseNets)与改进时序卷积网络(TCNs)的多模态手势识别方法,其核心思路是找到一种压缩的、有效的空间与时间特征表示信息。...metainit-initializing-learning-by-learning-to-initialize.pdf 推荐原因:直到今天,从零开始训练深度模型的时候我们都希望能有一组好的初始值,能让优化器更好地工作、模型更快收敛...不过一直以来的惯例做法都是用随机数作为初始值,效果好不好可以说完全看人品了,但毕竟也没有什么好的替代方法。 这篇论文里作者们提出了一种不随机的、生成对后续优化有帮助的网络初始值的方法

62820

一篇文章读懂UI按钮设计细节与规范

按钮是一种可以用户产生对其描述作用的交互式元素。咱们打个赌,如果一个按钮上显示“保存”,那么单击它很可能会“保存”某些内容。按钮也是任何数字产品中最重要的交互元素之一。 ?...如果确实需要,可以在设计规范中设定此类的规则。 ? 除了用基于网格的方式外,我们还可以使用大写字母W来选择按钮安全距离的方法。...如结账按钮可以通过购物篮或者购物车图标促使用户快速识别,但前提依然是要将“结账”一词显示出来。 ? 在按钮标签之后放置向右箭头,可以按钮的导向性进一步加强。用户更加迫切的点击并继续操作。...如果你想提升页面转化效果,可以考虑采取这种设计方式。 ? 与平面化的按钮相比,带有阴影的按钮也可以用户有更强的点击欲望,并且更快的注意到这个按钮。...在所有的情况下使用一种设置会造成视觉边际的不平衡。 ? 对角线间距与左侧和底部的对角线间距相同。这样可以更好更快的处理外部边缘。 ? 对角线间距大于(左侧)间距,小于(右侧)间距。

3.7K30

R文本挖掘 | 如何在用户词库中添加搜狗词典?

稍微对中文文本挖掘有所了解的小伙伴们都知道,虽然当前的分词统计模型已经具有了部分识别未登记词(没有录入到内置词库中的词)的能力,但是分词的好坏很大程度上仍旧取决于内置词库的的全面与准确性,这对一些专业领域来说尤其明显...同理,“头肩底”是用于描述K线的一个专用术语,但是一般的词库往往无法识别。 那么有没有什么办法有效获得大量的第三方专业词库呢?答案是肯定的,“搜狗细胞词库”为大家提供了大量的专业领域词汇。...获得开发者工具的方法很简单,只要登陆https://cran.r-project.org/bin/windows/Rtools/,然后选择下载Rtools33就可以了(假设你现在的R版本是最新的)。...用来给出细胞词库的路径(记住要带上扩展名哦); output给出输出文件的路径,我们在这里把他放到了和原细胞词库同一个路径下面,并且将其扩展名改为.txt; cpp = TRUE表示采用Rcpp(速度会更快...进 阶技巧 不知小伙伴们有没有发现,目前大猫教大家的方法只适用于单一的词库,如果需要一次性导入几十个乃至几百个词库,总不可能把路径一个个用硬代码写出来把?

4.8K41

开发 | Facebook 的“自然语言理解”如何Messenger更懂人类?(6500字演讲全文)

我们实际的措施,基本上是基于卷积网络的,这是一种很自然的吸收组合上下文的方法。...这就是我们这种方法可以很自然地做到这件事的原因。基本上你也自己能做一个话题或者分类识别器,就用这样的网络。 ? 刚才我提到了文本相似性,它可以很好地说明我们这个平台的灵活性。...所以你用一侧的网络对一条文本进行建模,用另一侧的网络对另一条文本进行建模,然后再用一个函数对语义区别大的进行惩罚。 ? 有了这样的方法,我们就可以做很厉害的事情了。...这是我们在通往与人类类似的文本识别准确率路上的小目标之一,我们可以把文字和图片或者视频进行联合识别。还是回到我朋友Jole的这个动态,文字部分是很隐晦的,但是这张图片非常好理解。...而且它还可以识别得更深,就像刚才Benoit说的那样,识别文本中的实体,在这个场景下就可以是产品名称、价格、主要特性,然后我们就可以给用户提供很有吸引力的使用体验。 ?

89290

插图设计正流行,10大理由告诉你如何靠它增强用户体验

事实例证: •心理学家声称人们需要大约1/10秒来获得视觉场景或元素的一般感知(文本项目的速度确实不可能) •视觉效果能更快地传递到大脑。...这意味着处理界面的用户不需要处理和记住比实际需要更多的数据,因此交互变得更快 •当来自不同国家/地区的人使用应用或网站时,界面中的视觉效果可以使其更加通用 •图片突出了具有文本识别自然问题的用户的感知极限...如果界面可以帮助你完成一项关键任务并你感到非常愉悦,那是不是很棒?是的,的确是这样!这将是你向朋友推荐的一种体验; 这将是一个值得传播的想法。” 这就是你可以利用插图实现的一些有效的事情。...通过研究用户行为和影响情感吸引力的因素,设计师可以将插图作为一种强大的工具,将经验与用户情感从最初的互动相互连接。 ? Kiddy的这个登录页面的设计概念保姆雇佣变得非常简单。...可取性是通过美观可爱的外观人们注意到你的产品,感受使用它的乐趣,并希望再次使用它。插图则是一种经过精心检查的方式来实现这一目标,因为它们可以添加美感,风格,优雅或任何您想要添加到界面中的内容。 ?

99110

使用Python,会话AI快速获得英伟达GPU加速,你需要认识这个工具

计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音已成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势。...除此以外,我们在日常生活中,也经常遇到需要将文本转化成语音的技术(TTS) ,该技术可以通过自然逼真的智能语音,机器拥有「说话」的能力。...那么,有没有一种技术,可以同时完成自动语音识别、语音合成技术的任务? 今年,英伟达发布了 NVIDIA Riva,这是一种现成的语音服务,可以轻松部署在任何云或数据中心。...NVIDIA Riva的设计旨在帮助用户轻松、快速地访问会话 AI 功能,实现开箱即用,通过一些简单的命令和 API 操作就可以快速构建高级别的语音识别服务。...该服务可以处理数百至数千音频流作为输入,并以最小延迟返回文本;还能快速构建高级别的对话式 AI 服务。

54820

动态 | 序列转换模型三合一!谷歌提出首个端到端的直接语音翻译模型

谷歌提供了多组 Translatotron 和基线(传统方法)语音转换的对比,两者都可以提供恰当的翻译,发音也很标准。...保留说话人特征 借助一个额外的说话人音色编码器,Translatotron 可以在转换后的语音中保留原本的说话人的声音特征,这转换出的语音听起来更自然、避免生硬。...频谱编码器在音色编码器的作用下生成语音,得到的结果就可以含有非常相似的说话音色,即便说的内容是另一个语言。...除了保留说话人声音特征之外之外,根据谷歌研究人员们的测试,这个系统相比传统的三个步骤的系统还有多项优势:更快的推理(翻译)速度;天然地更善于避开识别和翻译阶段累积的错误;而且对于不需要翻译的词汇也处理得更好...结论 据谷歌的研究人员们目前所知,这是世界上首个可以直接把一种语言的语音翻译到另一种语言语音的端到端模型;除此之外它还可以保留源说话人的声音特点。

65120

业界 | 微软官方解读自家机器阅读研究:要教机器学会阅读、回答和提问

微软的研究员目前已经创造出了能够像人类一样完成两种困难任务的技术:图像识别和语音识别。现在微软的顶级人工智能专家正在研究能够完成更复杂任务的系统:阅读文本进而回答问题。...Maluuba 的联合创始人 Kaheer Suleman 说到,「我们正在尝试开发一种文献机器:它能阅读、理解文本,然后学习如何交流,无论是笔录还是口述。」微软在今年年初时收购了这家创业公司。...机器阅读系统也能帮助医生、律师和其他专家更快地完成文档阅读这样的苦差事,从而专家们有更多的时间治疗病人或构想合法抗辩。 Maluuba 团队是微软几个解决机器阅读难题的团队之一。...机器阅读系统也能帮助医生、律师以及其他专家更快地阅读专业的医学或判例文档,从而他们有更多的时间对病人进行治疗或构思合法抗辩。...研究者说这些能力,连同深度学习方法在图像和语音识别领域的进步,已经使他们自信地感觉到机器阅读的重大突破尽在眼前。这正是许多人依然惊奇的事情。

42160

京东DNN Lab首席科学家:用深度学习搞定80%的客服工作

另一方面,大数据的演进催生了软硬件系统的进步,分布式架构的产生,使得算法的性能已经不是瓶颈,并行化框架和训练加速方法深度学习的前景变得光明。同时,大数据也会深度学习的效果越来越好。...2.命名实体识别:先对用户输入的文本进行识别,在对识别后的命名实体进行抽取,对应到人名、地名、商品名、机构名等不同类别,更好地理解用户的语言。所以,命名实体识别其实也是用户意图识别的必须步骤。...通过深度学习的算法,可以提高自动问答的准确率。与此同时,京东还开发了一个知识库,JIMI能够通过深度学习算法识别用户使用不同的词语背后的各种情绪,从而提供有针对性的回答。...李成华希望能够做到深度学习的平民化,即研究一种深度学习算法的架构,把很多参数固定起来,通过预处理,封装成跟数据相关性很小的标准化的API或者云服务,提供给京东内部,他们很容易地应用于各种数据,最终还将会向京东产业链输出...这又包括三个层面:针对输入向量非常长的文本(京东的词有将近十万的维度),首先做特征的降维,而且能够找到并应用非常重要的有区别度的,有利于业务提升的特征。第二是说调节各种参数,使得算法能够更快地收敛。

1.1K30
领券