buzzfrog

文章/答案/技术大牛

发布

LV5

发表了文章 2026-04-192026-04-19 07:41:02

深度解析 LaMI：大模型如何重塑多模态人机交互（HRI）的未来

在机器人技术的发展历程中，如何让机器人像人类一样自然、流畅地进行交流与协作，一直是个巨大的挑战。传统的机器人交互往往依赖于程序员手动设计的“状态机（State-...

buzzfrog 2026-04-192026-04-19 07:41:02

人工智能

发表了文章 2026-04-182026-04-18 21:49:49

深度解读《Do As I Can, Not As I Say》：当大语言模型遇见机器人物理现实

近年来，大型语言模型（LLM）在自然语言处理领域取得了令人瞩目的成就。然而，如何让这些只在数字世界里“饱读诗书”的模型真正走进现实物理世界，指挥机器人完成复杂的...

buzzfrog 2026-04-182026-04-18 21:49:49

人工智能

发表了文章 2026-04-182026-04-18 21:47:38

深度解析论文《LLM-Friendly Knowledge Representation for Customer Support》

在将大型语言模型（LLM）应用于企业级实际业务（如智能客服）时，业界普遍面临着知识理解难、大模型延迟高以及高质量训练数据匮乏的“三座大山”。近期，由 Airbn...

buzzfrog 2026-04-182026-04-18 21:47:38

人工智能

发表了文章 2026-04-142026-04-14 15:16:32

EverOS：一种生物启发的智能记忆操作系统架构

当前主流大语言模型虽在生成能力上取得突破，但仍普遍缺乏长期记忆能力，导致系统难以维持跨会话一致性与个性化行为。本文介绍 EverOS，一种受人类记忆机制启发的记...

buzzfrog 2026-04-142026-04-14 15:16:32

人工智能

发表了文章 2026-03-312026-03-31 16:04:28

辛普森范式 vs 傅立叶范式：两种认知世界的框架

在这个信息爆炸的时代，我们每天接收到的现实数据，就像是一张布满噪点、低分辨率的毛坯图像。面对这种复杂的现实，普通人往往只能看到一团模糊的像素块，而高手却能在脑海...

buzzfrog 2026-03-312026-03-31 16:04:28

人工智能

发表了文章 2026-03-192026-03-19 10:42:56

pVAD：个性化语音活动检测技术详解

pVAD（Personal Voice Activity Detection，个性化语音活动检测）是一种能够识别特定说话人语音的端到端神经网络模型。与传统 VA...

buzzfrog 2026-03-192026-03-19 10:42:56

人工智能、语音识别

发表了文章 2026-03-192026-03-19 10:39:43

TS-VAD与Personal VAD：目标说话人语音活动检测技术深度分析报告

本报告对目标说话人语音活动检测（Target-Speaker Voice Activity Detection, TS-VAD）和个性化语音活动检测（Perso...

buzzfrog 2026-03-192026-03-19 10:39:43

人工智能、语音识别

发表了文章 2026-03-182026-03-18 18:47:36

UniTalk-ASD数据集深度分析报告

活跃说话人检测（ASD）任务在许多下游应用中起着至关重要的作用，包括说话人日志（Speaker Diarization）、音视频语音识别（Audiovisual...

buzzfrog 2026-03-182026-03-18 18:47:36

人工智能

发表了文章 2026-02-252026-02-25 14:00:34

从人体视频到机器人动作部署 (Sim2Real) 技术方案

本方案旨在通过单目视频捕获人体动作，并将其转化为可在真实机器人上稳定运行的动力学控制策略。整个流程涵盖感知、数据处理、重定向、仿真学习和硬件部署，结合最新的计算...

buzzfrog 2026-02-262026-02-26 20:53:01

具身智能

发表了文章 2026-02-252026-02-25 08:06:23

LR-ASD：轻量级鲁棒主动说话人检测网络详解

主动说话人检测（Active Speaker Detection, ASD）是一个音视频多模态任务：给定一段包含多人的视频，模型需要逐帧判断每个可见人脸是否正在...

buzzfrog 2026-02-262026-02-26 20:56:09

人工智能

发表了文章 2026-02-142026-02-14 21:31:35

Qwen3-TTS 架构解析：基于 LLM 的自回归语音生成

各位同学，在大模型（LLM）席卷 NLP 领域的今天，语音合成（Text-to-Speech, TTS）技术也正经历着一场范式转移（Paradigm Shift...

buzzfrog 2026-02-152026-02-15 07:54:22

语音合成、人工智能

发表了文章 2026-02-132026-02-13 17:00:52

深入解析 MeloTTS：中文 TTS Pipeline 与多音字修正实战

MeloTTS 是一个基于 VITS2 架构的高质量、多语言 TTS（文本转语音）系统，以其极快的推理速度和自然的韵律表现著称。虽然它在多语言支持上表现优异，但...

buzzfrog 2026-02-142026-02-14 21:40:13

语音合成、人工智能

发表了文章 2026-01-092026-01-09 12:25:24

声音的两面：从物理振动到主观感知

在我们聆听音乐、交谈或感受自然之声时，声音似乎是一个整体体验。然而，若深入其本质，你会发现声音由几个独立而又相互关联的维度构成。其中最核心、也最易混淆的，便是音...

buzzfrog 2026-01-092026-01-09 12:25:24

声音工坊

发表了文章 2025-12-302025-12-30 11:57:43

深入解析 OpenAI Realtime API 协议架构：从 Response 到 Conversation

在开发基于 OpenAI Realtime API 的低延迟语音应用时，开发者面对的最大挑战往往是其复杂的 WebSocket 事件流（Event Stream...

buzzfrog 2026-01-202026-01-20 20:16:50

openai、人工智能

发表了文章 2025-12-302025-12-30 08:08:54

LiveKit Agents 深度技术架构剖析

LiveKit Agents 框架是一个基于 Python 的系统，旨在构建、部署和管理与 LiveKit WebRTC 基础设施交互的实时对话式 AI Age...

buzzfrog 2025-12-302025-12-30 10:18:12

agent

回答了问题 2025-12-272025-12-27 15:06:28

【有奖问答】你的 2025 有哪些难忘的回忆？（已完结）

10回答

程序人生、bug、程序员

buzzfrog回答于 2025-12-272025-12-27 15:00:31

我的 2025：不仅是程序员，更是“造物主”的一年如果用一行代码总结我的 2025，那一定是： self.evolve(from="Sensory", to="Cognitive", with="...... 展开详请

赞1 收藏0 评论0

我的 2025：不仅是程序员，更是“造物主”的一年如果用一行代码总结我的 2025，那一定是： self.evolve(from="Sensory", to="Cognitive", with="...

发表了文章 2025-12-272025-12-27 14:19:15

ManiAgent：多智能体协作的通用机器人操作框架介绍

在机器人操作领域，如何让机器人理解自然语言指令并完成复杂的操作任务，一直是一个充满挑战的问题。传统的机器人控制方法往往需要精确的编程和预定义的动作序列，难以适应...

buzzfrog 2025-12-272025-12-27 14:19:15

人工智能

发表了文章 2025-12-252025-12-25 17:11:00

LiveKit 入门实战：基于 Python SDK 构建视频会议客户端

本文将带你通过一个实战案例——client_demo.py，深入了解如何使用 LiveKit Python SDK 构建我们将从环境搭建开始，逐步解析核心概念、...

buzzfrog 2025-12-252025-12-25 17:11:00

python

发表了文章 2025-12-172025-12-17 07:55:16

Sherpa-ONNX 之关键词检测 KWS 入门实战

在智能语音交互中，关键词检测（Keyword Spotting, KWS）是唤醒语音助手的第一步。例如 "Hey Siri"、"小爱同学"、"你好小问" 等，...

buzzfrog 2025-12-172025-12-17 07:55:16

人工智能

发表了文章 2025-12-152025-12-15 11:58:15

NKF-AEC 入门实战

在实时语音通信中，声学回声消除（Acoustic Echo Cancellation, AEC）是至关重要的环节。NKF-AEC 是一个结合了卡尔曼滤波（Kal...

buzzfrog 2025-12-152025-12-15 11:58:15

深度学习

12 3 4 5 6 7 8 下一页

个人简介

独立 | 技术撰稿人
别名：人气青蛙、星野。曾在阿里巴巴、盛大等多家互联网公司有十多年的AI研究及大规模架构实战经验。
企业级互联网架构 AIGC stable diffusion
中关村应用文理学院 | 软件工程
http://buzzfrog.cn
上海
加入社区时间：2019-10-18

个人成就

获得 393 次赞同
文章被阅读 392.4K 次
文章获得 41 次首页推荐

关注了：6关注者：1K

buzzfrog

深度解析 LaMI：大模型如何重塑多模态人机交互（HRI）的未来

深度解读《Do As I Can, Not As I Say》：当大语言模型遇见机器人物理现实

深度解析论文《LLM-Friendly Knowledge Representation for Customer Support》

EverOS：一种生物启发的智能记忆操作系统架构

辛普森范式 vs 傅立叶范式：两种认知世界的框架

pVAD：个性化语音活动检测技术详解

TS-VAD与Personal VAD：目标说话人语音活动检测技术深度分析报告

UniTalk-ASD数据集深度分析报告

从人体视频到机器人动作部署 (Sim2Real) 技术方案

LR-ASD：轻量级鲁棒主动说话人检测网络详解

Qwen3-TTS 架构解析：基于 LLM 的自回归语音生成

深入解析 MeloTTS：中文 TTS Pipeline 与多音字修正实战

声音的两面：从物理振动到主观感知

深入解析 OpenAI Realtime API 协议架构：从 Response 到 Conversation

LiveKit Agents 深度技术架构剖析

【有奖问答】你的 2025 有哪些难忘的回忆？（已完结）

ManiAgent：多智能体协作的通用机器人操作框架介绍

LiveKit 入门实战：基于 Python SDK 构建视频会议客户端

Sherpa-ONNX 之关键词检测 KWS 入门实战

NKF-AEC 入门实战

个人简介

个人成就

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐