12月4日XiaoHu.AI 日报更新
MoMask:基于文字描述的 3D 动画人物动作生成
处理混乱文本能力的研究
超远距离二维码伪造替换攻击技术
网络购物的混合现实增强体验
芝加哥大学研究基于视频的击键推断攻击
Cybertruck 与 48V 汽车技术
3D 可视化展示大语言模型工作方式
Visual Anagrams 与扩散模型创造的光学幻觉
DeepMind 通过 AI 发现数百万种新材料
Excalidraw 开源文本到图表功能
Voxon 3D 体积显示器
腾讯 AI 实验室的 Sketch Video Synthesis 项目
阅读时长: 15 minutes
01
—
MoMask:基于文字描述的 3D 动画人物动作生成
MoMask 是一项创新技术,能够根据文字描述生成 3D 动画人物的动作。这种技术特别适用于复杂动作的生成,如特定类型的舞蹈动作。
MoMask 的工作原理和特点:
分层量化表示:通过“分层量化”技术将复杂的人类动作分解成多个层次的“动作标记”。
向量量化:在基础层,使用“向量量化”过程获取一系列运动标记,将连续动作数据转换成一系列离散标记。
残差标记:生成“残差标记”,代表更高阶的动作信息。
双向变换器:使用两个不同的双向变换器处理标记。掩码变换器用于预测和填补缺失的标记,残差变换器用于预测下一层的标记。
文本驱动的生成:根据文字描述生成对应的3D人类动作序列。
应用多样性:除了根据文本生成动作,MoMask还可用于时间内插等相关任务。
更多信息:
项目及演示:https://ericguo5513.github.io/momask/论文:https://arxiv.org/abs/2312.00063GitHub:https://github.com/EricGuo5513/momask-codes
02
—
GPT-4 处理混乱文本能力的研究
东京大学的研究人员进行了一项研究,测试了 GPT-4 处理混乱文本的能力。他们发现,即使在极端条件下, GPT-4 也能有效地理解并纠正错误的文本。
研究发现和 GPT-4 的能力:
字母顺序混乱:GPT-4 能够处理字母顺序混乱的句子,恢复其原始顺序。例如,将“eTh cta sat no eht amt”纠正为“The cat sat on the mat”。
拼写错误:GPT-4 能识别并纠正常见拼写错误,理解用户的真实意图。
语法错误处理:它还能理解并处理含有语法错误的句子。
处理不完整或含糊的输入:即使输入不完整或含糊不清,GPT-4 也能尝试提供合理的回答或建议。
研究结果的具体细节:
编辑距离减少95%:GPT-4将混乱的句子恢复到接近原始句子的状态,显著降低了编辑距离。
问题回答能力:即使在混乱的上下文中,GPT-4仍能准确理解问题并提供答案。
与其他模型的比较:GPT-4在处理混乱文本方面表现出色,尤其是在极端情况下的性能更加突出。
更多信息:
论文:https://arxiv.org/abs/2311.18805
03
—
超远距离二维码伪造替换攻击技术
日本东海大学的研究人员开发了一种能够从远达 100 米距离使用不可见光激光照射并替换 QR 码的技术。这种技术的隐蔽性高,几乎无法防范,为二维码安全带来了新的挑战。
攻击原理和特点:
不可见光激光照射:使用不可见光激光(如红外线)直接照射到 QR 码上。
修改 QR 码信息:激光照射改变 QR 码的部分像素,从而改变其编码的信息。
引导至恶意网站:被修改的 QR 码可以将用户引导至攻击者指定的恶意网站。
隐蔽性:由于使用不可见光,攻击对普通用户来说几乎不可察觉。
远距离操作:能够从远距离进行操作,增加了攻击的隐蔽性和灵活性。
动态操作:攻击者可以在任意时间点进行照射,实现动态攻击。
实验结果:
不同距离效果:在10米至40米距离上,恶意网站URL成功读取;而在50米和100米上,正常网站和恶意网站URL交替出现。
影响因素:实验室环境中的空调导致空气流动,影响了激光位置和实验结果。
后续计划和防范挑战:
研究者计划进行更长距离的实验,如1公里范围内的测试,这将需要更高精度的激光照射技术。由于这种攻击的隐蔽性和远距离操作能力,为普通用户和设备带来了识别和防范上的难题。
更多信息:
论文:https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=228707&item_no=1&page_id=13&block_id=8
04
—
网络购物的混合现实增强体验
Quest 3 的 Figmin XR 应用程序引入了一种全新的网络购物体验,结合了混合现实技术,使得用户能够以前所未有的方式进行在线购物。这种体验改变了传统的网络购物方式,为用户提供了更直观、互动的购物体验。
主要特点和体验方式:
搜索任何网页:用户可以通过 Figmin XR 浏览互联网,寻找他们感兴趣的商品。
物理上抓取物品:通过混合现实技术,用户可以在虚拟空间中“物理上”抓取和操作他们看到的商品。
现实中查看商品:用户可以在自己的现实环境中查看商品,更直观地了解商品的外观和尺寸。
05
—
芝加哥大学研究基于视频的击键推断攻击
芝加哥大学的研究团队开发了一种新型攻击方法,能够从 12 米远的距离,使用不到 60 美元的望远镜头装配在智能手机上,成功恢复被输入的内容。
攻击概述和技术原理:
攻击性质:这是一种公共场合可执行的基于视频的击键推断攻击。
使用设备:仅需一台普通 RGB 摄像机,从正面拍摄目标的打字手指。
独特方法:不依赖侧信道数据或其他假设,无需预先训练、键盘知识、目标的训练数据、本地传感器。
样本场景:包括室内休息室和长距离户外场景,使用带望远镜头的智能手机从远处拍摄打字动作。
多样化条件:评估了不同环境、距离、障碍物和键盘设备下的攻击效果。
用户研究:包括 16 名不同打字风格和能力的用户,攻击在各种场景中均显示高效果。
技术原理包括:
视频分析:追踪分析手指动作,检测击键。
数据处理:采用自我教学系统,包括击键检测和聚类,以及隐马尔可夫模型(HMM)。
推断输入内容:结合语言模型和 3D-CNN 模型来提高推断准确性。
06
—
Cybertruck 与 48V 汽车技术
Cybertruck 将汽车电压提高到48V 。上一次汽车产业提高电压是从 6V 到 12V ,但那已经是 70 年前的事情了。
人类一直无法再次提高汽车电压水平,但是马斯克解决了这个问题!牛P的是,Musk 在解决这个问题后,他给其他汽车公司的 CEO 每人寄送了一本名为《如何设计 48 伏特车辆》的书。
通过将电压提高 4 倍,Cybertruck 的设计使得所需电流减少到原来的 1/4 。由于电流与铜材料成本相关(铜材料成本较高),减少电流使用意味着可以节省大量铜材料,从而为特斯拉节省大约每年 100 亿美元的成本。
汽车公司几十年来一直试图创建 48V 汽车,但直到现在都没有成功。
07
—
3D 可视化展示大型语言模型(LLM)工作方式
@BrendanBycroft 创建了一个用于可视化大型语言模型(LLM)如 GPT 的内部结构和运作方式的网页。这个项目以 3D 形式呈现,使得理解这些复杂模型的运作变得直观和易懂。
主要特点和功能:
3D可视化:展示大型语言模型在处理单个令牌(token)推理时的所有步骤及其工作原理。
支持不同大小的模型:可以展示不同大小的人工智能模型,如GPT-2。
交互式体验:用户可以通过左键拖动、右键旋转和滚轮缩放来探索模型。将鼠标悬停在张量单元上,可以查看详细信息。
颜色编码:蓝色单元格表示权重/参数,绿色单元格表示中间值。每个单元格代表一个数字。
开源项目:Brendan Bycroft 将此项目开源,代码可在 GitHub 上找到。
CPU模拟:此外,项目中还包含一个CPU模拟器,提供2D环境用于编辑和模拟CPU的工作原理。用户可以在编辑器中创建和修改数字电路,模拟真实CPU的运作。
更多信息:
GitHub:https://github.com/bbycroft/llm-viz
08
—
Visual Anagrams 与扩散模型创造的光学幻觉
Visual Anagrams 通过使用扩散模型技术创造了一种新奇的多视角光学幻觉。这种方法通过图像的旋转、翻转、颜色反转或其他变换,展示了不同的图案或形状,为视觉艺术领域带来了新的创新。
特点和效果:
多视角视觉效果:图像根据观看角度或状态的变化而展现出不同的视觉效果。
图像变换:包括旋转、翻转、颜色反转等,使同一图像在不同条件下呈现出不同的图案或形状。
创造性应用:可用于艺术创作、广告设计、教育工具等多个领域,为观众带来独特的视觉体验。
这种方法可以在没有任何先前样本或数据的情况下,创造出一种特殊类型的图像。这些图像在不同的观看角度或在经过某种变换(如旋转、翻转)后,会显示出不同的图案或形象。
更多信息:
项目地址:https://dangeng.github.io/visual_anagrams/
论文:https://arxiv.org/abs/2311.17919
09
—
DeepMind 通过 AI 发现数百万种新材料
DeepMind 利用其深度学习工具 GNoME 发现了超过 220 万种新的晶体材料,其中约 38 万种被认为是稳定的,这一发现标志着 AI 在材料科学领域取得的重大进步。
主要发现和成就:
新晶体的发现:GNoME 预测了 220 万种新晶体,其中 38 万种被认为是稳定的,为实验合成提供了有希望的候选材料。
潜在应用:这些材料可能用于开发未来变革性技术,如超导体、超级计算机和下一代电池。
AI 在材料发现中的潜力:全球实验室的研究人员已经独立地实验制造了其中的 736 种新结构。
GNoME 的工作原理:
图神经网络 (GNN):GNoME 使用 GNN 来模拟原子间的连接,分析和预测晶体材料的结构和稳定性。
数据训练:最初使用公开数据库中的晶体结构和稳定性数据进行训练。
结构和组成流程:通过结构流程和组成流程发现新材料。
密度泛函理论 (DFT) 计算:用于评估 GNoME 的预测结果。
主动学习:通过 DFT 测试生成的晶体结构预测,提高模型的预测准确性。
意义和影响:
加速材料发现:GNoME 的应用加速了新材料的发现过程。
扩大材料数据库:为材料科学领域提供了更多已知稳定材料。
推动技术创新:GNoME 的发现可能用于开发新技术,对科技进步和解决能源问题具有重要意义。
促进科学研究:DeepMind 公开的数据有助于加速材料科学的整体进展。
DeepMind 已向研究社区发布了新发现的晶体数据库,提供了新候选材料的完整目录。
10
—
Excalidraw 开源文本到图表功能
Excalidraw,一款受欢迎的虚拟白板应用,专注于创建类似手绘的图表,最近开源了它们的文本到图表的功能。这个更新使得用户能够通过输入文本描述来自动生成相应的图表或图形。
主要特点和应用:
手绘风格白板:提供一个无限的、基于画布的白板,具有独特的手绘风格。
文本转图表功能:用户可以输入文本描述,应用会自动将其转换为相应的图表或图形,简化了图表创建过程。
多功能支持:支持多种图表和绘图功能,适用于各种场景,如会议记录、设计草图、教育用途等。
更多信息:
GitHub:https://github.com/excalidraw/excalidraw在线体验:https://excalidraw.com
11
—
Voxon 3D 体积显示器
Voxon 是一款革命性的 3D 体积显示器,能够在空间中创建真实的三维图像,无需佩戴 3D 眼镜即可从任何角度观看。
主要特点:
真正的三维图像:能够在空间中实际投影光点,创建真实的三维图像。
超高速数字光引擎:每秒能够投影超过五亿个光点,创造流畅、动态的 3D 图像。
实时交互:不仅能展示预渲染的 3D 图像,还能实时响应输入和交互。
与全息投影的区别:与基于激光和光学干涉原理的全息投影不同,Voxon 的技术创造的三维图像实际占据了三维空间,可以从多个角度观看。
应用领域:
适用于医疗、教育、广告、游戏和工程等多种行业,提供了一种全新的视觉和交互体验。
腾讯 AI 实验室的 Sketch Video Synthesis 项目
腾讯 AI 实验室推出了一个创新的项目:Sketch Video Synthesis,它可以将视频转换成草图风格的动画,并确保草图在视觉上保留了原视频的主要内容和意义。
主要功能:
视频转草图:将标准视频转换成草图风格的动画。
保持语义和时间连贯性:转换后的草图视频在视觉上与原视频保持语义一致性,并在不同帧之间展现时间连贯性。
视频编辑和涂鸦:允许用户对草图视频进行再编辑创作和涂鸦,增加颜色填充、调整大小和叠加涂鸦。
工作原理:
贝塞尔曲线表示:使用逐帧贝塞尔曲线表示视频,为草图化提供结构化框架。
跨帧笔触初始化:创新的初始化方法确定曲线在不同帧中的起始位置和宽度。
优化算法:基于CLIP特征的语义损失和一致性损失来优化曲线位置,保证草图与原视频在视觉上的一致性和时间上的连贯性。
应用场景:
艺术创作和视觉表达:为艺术家和设计师提供创作独特风格视频内容的新工具。
教育和演示材料:在教育和演示中使用草图视频,以更吸引人、易于理解的方式展示信息。
娱乐和游戏设计:在游戏和娱乐内容中提供独特的视觉体验。
项目及演示:https://sketchvideo.github.io论文:https://arxiv.org/abs/2311.15306GitHub:https://github.com/yudianzheng/SketchVideo
历史项目记录:xiaohu.ai
感 阅
谢 读
领取专属 10元无门槛券
私享最新 技术干货