泰语上的stripAccents - 腾讯云开发者社区

文章/答案/技术大牛

发布

Eir-8B 专为医学领域打造的先进大语言模型！

作者假定，通过在适度规模的、泰语医疗特定的数据集上进行额外的训练，强大的语言模型可以有效地适应泰语。...作者从泰国Exam [1]这个基于泰语语言考试的基准测试，评估了模型在泰语领域的掌握能力。...答：是解释：DBE在具有可比产量、有效性和并发症率的社区环境中与具有相似特征的三级转诊中心的DBE进行比较，两者在安全性和有效性上具有相等的效果。...5 结论 Eir-8B 是一种专门针对泰国医学领域的特定语言模型，展示了先进的医学推理和在这些专业基准上的改善性能。...值得注意的是，它还在泰国语言医学基准上的通用和医学任务方面超越了所有开源语言模型。该模型与用于管理训练数据集的基本工具和开源分布式训练库一同发布。

4731 0

泰国文字识别技术：推动着泰国数字化转型的进程

算法需智能识别泰文字母（辅音、元音）、声调符号及各种修饰符号的组合，并精确判断其边界。由于符号常叠加在主辅音的上、下、左、右位置，传统切割方法效果有限，现代方案多依赖深度学习模型直接进行序列预测。...6.后处理：利用泰语词典、语言模型（N-gram, 神经网络语言模型）和语法规则，对初步识别结果进行校正，修正可能的拼写错误，并智能插入正确的词间空格（这在泰文原文中是没有的），最终输出流畅、准确的泰语文本...版面分析与还原：智能识别文档中的文本区域、表格、图片等，并尽力保持原始版式结构。多语言混合识别：在泰语为主的文件中，也能有效识别嵌入的英文、数字或其他常见语言。...辅助学习与翻译：集成在词典APP或翻译工具中，用户拍照即可即时翻译泰语菜单、路牌、说明书等。出版与传媒：数字图书馆/档案馆：大规模数字化泰语书籍、报纸、杂志。...内容再创作：方便编辑和再利用扫描文档中的泰语内容。物流与运输：快递与邮政：自动识别泰文手写或打印的快递单地址信息，实现高效分拣。海关申报：快速处理泰语填写的报关单据。

4171 0

您找到你想要的搜索结果了吗？

是的

没有找到

ACL 2025 高分接收 | 高感情语音技术：逻辑智能小语种TTS破局之道

然而，这一繁荣几乎局限于英语、普通话等资源充沛的大语种；全球一千多种小语种由于语料稀缺、文字无空格或多音调等复杂语言学特性，在数据收集、文本前端处理和声学建模上都面临巨大挑战，导致高质量 TTS 迟迟无法落地...，通过从语音、文本、音素、语法等多个维度构建系统化的泰语数据集，并结合先进的声学建模技术，成功实现了在有限资源下的高质量 TTS 合成效果。...泰语专项数据集构建该工作构建了一套专为低资源泰语 TTS 设计的多维数据集，涵盖语音、文本和注释三大类：语音数据——500 小时来自新闻、社媒、播客等多领域语料，外加 40 小时金融、医疗、教育、法律等垂直领域语料...从 4.4 下降到 3.8、3.9 与 3.0，尤其 G2P 的影响最大，证明精确声调与音素映射是泰语 TTS 的质量瓶颈。...TTS 等商业方案；特别是在专业术语发音与语速控制上，用户反馈显示本系统误读率更低、韵律更自然，验证了该框架对多场景的强鲁棒性与可落地性。

6681 0

一个Java中操作字符串的类库 (Underscore.string.java)

起源写过 Javascript 代码的人，估计没有几个不知道 underscore 这个类库的，因为它太好（有）用了，尽管现如今由于实现上不够优雅的缘故，已经被lodash所取代。...而我想介绍的是 github 上 star 3000+的 underscore.string，它原本是 underscore 的扩展，不过现在已经演变成独立的库。...; -> hello-world slugify是一种规整字符串的操作，常用于把url中的非法字符规整成 word-word 的模样。...这样的亲和url的格式。...naturalSort naturalCmp dedent commonPrefix commonSuffix chopPrefix chopSuffix screamingUnderscored stripAccents

7142 0

展开操作符：一家人就这么被拆散了

用展开操作符展开「一家三口」的结果：用for...of遍历，可以看到对应的Unicode字符：那么「一家三口」作为一个emoji，有什么特殊的呢？...Emoji Sequence 这种由多个emoji组合成的emoji被称为Emoji Sequence，他利用了文字可以组合形成这一特性。比如，泰语就是可以组合形成的文字。...泰语里的萨瓦迪卡（你好），写为「สวัสดีครับ」。你会发现，在字符头上有个「帽子」。此外，泰语中的一些字符还有「鞋子」，比如「ผู」。又或者又有「帽子」又有「鞋子」，比如：「ผู้」。...在泰语输入法中，用户依次输入「基本字符」、「帽子」、「鞋子」，组合成需要的字符后再输入「结束字符」，就拼凑成一个完整字符。...两个爸爸带孩子的家庭，两个妈妈带孩子的家庭，这都是可以尝试的嘛～

3702 0

东南亚电商多语言适配难？轻量化更新如何让商品 3 天覆盖 10 国？

在东南亚 6.7 亿人口的电商市场，语言壁垒像一道无形的墙：印尼语、泰语、越南语等 10 余种主流语言并存，仅印尼就有 700 多种方言。...翻译≠适配：语义偏差 + UI 错乱，用户体验 “断崖式下跌”印尼语 “promo flash” 特指限时折扣，泰语 “ส่วนลด” 对应优惠券，但通用翻译工具的准确率不足 60%。...更致命的是，不同语言的排版差异（如越南语文字长度比中文长 30%）会导致按钮错位、文字溢出 —— 某美妆品牌的泰语版 App 因 “加入购物车” 按钮被文字遮挡，转化率骤降 40%。...第 2 天：本地化细节 “动态优化”收到泰语用户反馈 “‘立即购买’按钮被文字遮挡”，设计师在 FinClip 后台调整泰语字体大小，15 分钟内完成热更新，按钮可见率恢复 100%；针对越南用户偏好...FinClip 控制台实时显示各国加载成功率（均超 99%）；发现马来西亚用户支付跳转慢，技术团队通过 FinClip 热更新优化接口，30 分钟内将跳转时间从 3 秒缩至 1 秒；最终数据：10 国商品上架完成

4371 0

增加对粤语、韩语支持，准确率提升10%，腾讯云发布专属语音识别模型

最新发布的模型不仅识别准确率得到大幅提升，同时也增加了对粤语、韩语的支持，后面会陆续开放对上海话等方言以及日语、泰语、印尼语等国外语言的支持。...语种丰富度进一步提升，腾讯云语音识别加速落地为满足不同客户群体需求，腾讯云语音识别今年在语种丰富度上持续发力，联合微信智聆、腾讯国际业务语音技术实验室、腾讯民汉翻译等多个人工智能实验室，在原有常见语种基础上，...开放了韩语、粤语的识别能力，后面会陆续开放对上海话等方言以及日语、泰语、印尼语等国外语言的语音识别能力。...经过长期的打磨训练和效果调优，目前腾讯云语音识别各语种已广泛应用于会议记录转写、视频字幕、电话录音质检等业务场景。 ? 实际上，腾讯云凭借多年在智能语音领域的耕耘，已经收获众多权威机构的认可。...用更前沿的技术、更极致的产品体验，帮助合作伙伴和客户打造高效的专属解决方案，助力各行各业的数字化和智能化转型。” — 完 —

2.1K4 0

我们搞了个能自动翻译的客服系统，小语种也不在话下！

gofly.v1kf.com 最近我们团队折腾出了一个挺有意思的东西——支持多语言自动翻译的在线客服系统。...说实话，做这个的初衷特别简单：现在跨境电商这么火，但很多商家客服根本搞不定小语种客户，看着客户发来的越南语、泰语干瞪眼，这单子不就飞了吗？...，再发出去客户用母语回复时，系统又自动转成中文显示在客服屏幕上（突然想到个细节）对了！...我们特意做了双语存档：客服端永远显示原文+翻译对照客户端只看到翻译后的内容所有对话记录都保留两种语言版本，后期查账特别方便技术实现上其实挺取巧的，直接用GPT当翻译引擎。...目前实测下来，像越南语、泰语这些东南亚语言翻译准确率大概85%，英语日语这些能到95%。

3521 0

达摩院发布大模型测试基准：GPT-4勉强及格，其他模型悉数落败

类似地，最近一个月我们也看到了中文上的类似尝试例如 C-Eval 和 GAOKAO，将各类 / 高考的中文试题汇总起来用以测试中文大模型。...南非荷兰语、斯瓦希里语、泰语、爪哇语，所有问题均来自于对应国家的官方试题。...从语言的角度看，在低资源或者非拉丁字符语言比如泰语、爪哇语上，即使是 GPT-4 也只能达到 50+% 的准确率。这显示目前大部分模型的能力仍然是集中体现在英文上，多语言能力仍然有待提高。...例如上图中给的例子，斯瓦希里语涉及到一个谚语的填空；泰语则涉及到泰国本地常见的自然景观特点：可以看到，即使是根据准确的翻译（上图的英文翻译由泰语母语者提供），但没有对应的语言、文化常识也无法作答，体现出对模型多语言能力的充分测试...从目前的测试结果我们可以看出，虽然不少模型在高资源语言例如英文甚至中文上已经可以取得还不错的效果，但在多语言情况下绝大部分模型的效果都差强人意。

4313 0

奇声（IQDubbing）-- 面向影视剧的AI配音技术

除了D轨外的ME轨就是国际声，配上泰语，泰语的对白轨做成了泰语的配音音轨，国际声是配音的前提，但问题是很多片子没有国际声，或者是有却存在瑕疵。...应用算法上核心是Voice Conversion声音转换，在声码器等方向上我们也做了很多工作，后续会展开讲。对于配音场景则更关注表现力与匹配场景下的特殊需求，针对此方面进行优化。...VC在一些APP上大家可能都体验过了，是娱乐智能数字化场景，用Voice Conversion在影视剧配音场景有什么特殊性？第一是表现力要求高，电视剧中的表现力丰富，抑扬顿挫，喜怒哀乐。...3.4.2 第二代框架基于第一代基础上加入韵律模型，提高表现力，运用VQ-Wav2Vec训练模型，另外替换原有ASR，使用E2E的方式，时间分辨率从30ms提升到10ms。...中文与泰语请到Local Speaker测评迭代效果，建立比较完备的测试集，来源于对应语种的影视剧。语种包括中文、泰语、越南语，从性别、年龄、音色情绪将测试集进行分类，每种类型有若干测试音频。

3K2 0

泰国文字OCR技术的应用，为泰国文字信息的快速处理和利用提供助力

在数字化时代，光学字符识别（OCR）技术作为实现文本数字化的关键手段，正发挥着越来越重要的作用。尤其是在处理小语种文字时，OCR技术的精准度和效率直接影响着信息的交流与传播。...，影响声调规则32个元音符号：可以出现在辅音的前、后、上、下位置4个声调符号：改变音节发音无词间空格：增加了分词和识别的难度这些特点使得传统OCR技术在泰国文字OCR识别上表现不佳，而深度学习技术为解决这些问题提供了新的可能...AI服务(如翻译)无缝集成泰国文字OCR技术的应用场景旅游与跨文化交流实时翻译应用：游客通过手机摄像头即时翻译泰语菜单、路牌等旅行证件处理：自动识别泰国驾照、身份证等信息商业与金融银行单据处理：自动录入泰文支票...、汇款单等金融文件商业合同分析：快速数字化泰语合同关键条款发票识别：自动提取供应商发票中的结构化信息教育文化古籍数字化：保护泰国古代文献，实现电子化存档试卷自动批改：识别手写泰文答案并进行评分政府与公共服务身份证件处理...随着技术的不断发展和完善，它将为泰国以及与泰国相关的信息交流、经济合作、文化传播等方面发挥更加重要的作用，推动泰国社会的数字化进程和国际交流的深入发展。

3991 0

反卷积，上采样，上池化的理解

向AI转型的程序员都关注了这个号机器学习AI算法工程公众号：datayx 上采样与上池化图示理解，使用三张图进行说明：图（a）表示UnPooling的过程，特点是在Maxpooling...从图中即可看到两者结果的不同。简单来说：上采样指的是任何可以让你的图像变成更高分辨率的技术。...最简单的方式是重采样和插值：将输入图片进行rescale到一个想要的尺寸，而且计算每个点的像素点，使用如***双线性插值***等插值方法对其余点进行插值来完成上采样过程。...在FCN、U-net等网络结构中，我们见识到了上采样这个东西。图（c）为反卷积的过程，反卷积是卷积的逆过程，又称作转置卷积。...附录反卷积(Deconvolution)、上采样(UNSampling)与上池化(UnPooling)、可视化代码： https://github.com/heuritech/convnets-keras

1.5K3 0

Kubernetes上的Backstage

但您也可以克隆该仓库中提交的代码的最终版本，并在您的笔记本电脑上运行它。...它允许我们在 Backstage UI 中查看在 Kubernetes 上运行的应用程序 Pod。...我们还使用 HTTP 请求操作插件在 Sonarcloud 上创建与 ${{parameters.appName}} 相同名称的新存储库 (4)。...backstage.io/kubernetes-id 注释包含用于在 Backstage UI 中显示的 Kubernetes 上搜索 Pod 的标签值。...然后点击下一页上的“Review”和“Create”。将创建两个 GitHub 存储库。第一个存储库包含示例应用程序源代码。第二个包含用于 Argo CD 部署的 YAML 清单。

8101 0

shell的进阶上

注意事项: 指令的执行是从上而下、从左而右的分析与执行; 指令的下达就如同第四章内提到的: 指令、选项与参数间的多个空白都会被忽略掉; 空白行也将被忽略掉，并且 [tab] 按键所推开的空白同样视为空格键...练习简单的shell 利用 date 进行文件的建立假设我的服务器内有数据库，数据库每天的数据都不太一样，因此当我备份时，希望将每天的资料都备份成不同的档名，这样才能够让旧的数据也能够保存下来不被覆盖...xiaoqi <--在 script 运作中，这两个变量有生效 [root@study xiaoqi]# echo ${firstname} ${secname} 上，...file1 是否比 file2 旧 -ef 判断 file1 与 file2 是否为同一文件，可用在判断 hard link 的判定上。...那个 $@ 与 $* 基本上还是有所不同啦!不过，一般使用情况下可以直接记忆 $@ 即可!

9513 0

Go程序例子(18)：字符串与“字符”

而在 Go 中，“字符”的概念被称为 rune，它是表示 Unicode 代码点的整数。这篇 Go 官方博客文章是一个很好的入门资源。...package mainimport ( "fmt" "unicode/utf8")func main() {// s 是一个字符串，赋值为表示泰语中“hello”一词的字面量。...Go 的字符串字面量是以 UTF-8 编码的文本。 const s = "สวัสดี"// 由于字符串等价于 []byte，这将返回存储在其中的原始字节的长度。...需要注意的是，RuneCountInString 的运行时间取决于字符串的大小，因为它需要逐个解码每个 UTF-8 rune。...一些泰语字符由多个字节的 UTF-8 代码点表示，因此计数结果可能会令人意外。

2031 0

Proxmox上的Kubernetes

在这一点上——就我们的目的而言，它们是可互换的。我个人更喜欢 OpenTofu，并且将在本文中坚持使用它。...然而 Cilium 是一个 CNCF 项目，并且在上周在巴黎举行的 KubeCon 上与一些相关人员交谈后，这种怀疑消失了。...我们还添加了一个模板命令，我们将在不同的节点上使用它来运行 kubeadm 命令。...有关下一步要做什么的灵感，你可以查看我的“mini-kubernetes”GitLab 仓库，或查看我在 GitHub 上较大的家庭实验室仓库。...只要您在本地网络上，这可能很安全，并且您可以从 ~/.ssh/known_hosts 文件中删除冒犯的 IP。

1.3K1 0

Linux上的Podman

--restart 重新启动策略以在容器退出时应用--name 为容器指定名称冒号前的绝对路径表示主机上的路径，可能因系统而异。冒号后的绝对路径用于容器上的路径，不能更改。...--restart 重新启动策略以在容器退出时应用--name 为容器指定名称冒号前的绝对路径表示主机上的路径，可能因系统而异。冒号后的绝对路径用于容器上的路径，不能更改。...--restart 重新启动策略以在容器退出时应用--name 为容器指定名称冒号前的绝对路径表示主机上的路径，可能因系统而异。冒号后的绝对路径用于容器上的路径，不能更改。...--restart 重新启动策略以在容器退出时应用--name 为容器指定名称冒号前的绝对路径表示主机上的路径，可能因系统而异。冒号后的绝对路径用于容器上的路径，不能更改。...--restart 重新启动策略以在容器退出时应用--name 为容器指定名称冒号前的绝对路径表示主机上的路径，可能因系统而异。冒号后的绝对路径用于容器上的路径，不能更改。

7160 0

Upstage为何构建小型语言模型

模型融合以创建SLM Upstage，一家AWS生成式AI加速器参与者，使用开源模型，允许在单个GPU上运行。...其旗舰模型Solar，与其他在单个GPU上运行的小型模型相当，包括Llama 3.81 B、Mistral Small Instruct 2409和Hugging Face的ExaOne 3.0 7.8B...实现包括诸如权重平均之类的实践，这是一种用不同能力的多个独立模型的参数进行合并的方法。...例如，Upside为泰语构建了一个特定模型。对于泰语，它类似于GPT 4，OpenAI的模型。 SLM的开发成本也低得多。假设，表示，想象一下一个构建成本为10美元的SLM。...例如，Solar Pro模型现在已在Amazon Bedrock Marketplace上提供。

2751 0

上云上的差点破产是什么体验？

前言 2020年，很多小的初创公司因为疫情的原因，纷纷倒闭关门，哪怕是勉强支撑的也大多是一蹶不振濒临破产。...但是没想到的是因为内部测试期间的一些小疏忽，他们收到的是一纸 72000 美元（约 47 万人民币）的天价账单！...（因为站点规模很小，完全用不上 SQL Server 或者任何其他成熟的商业数据库） Sudeep Chauhan还非常小心的对这个GCP项目设置了 7 美元的云资源使用预算，很多小伙伴看到这里肯定会想...不难想象，如果我在起床刷牙的时候看到我500额度的信用卡刷了一个几万的账单出来，我也会当场晕倒。...所以按照Firebase 上的读取操作成本： (0.06 美元 / 100,000) * 116,000,000,000 = 69,600 美元！

3.4K1 0

到底什么方法训练1000个样本，就能完成400万条评论分类！

今天给大家展示一个在亚马逊评论数据集上实现的任务，即将评论分为积极或消极两类。...我们可以先下载一个预训练模型（在ImageNet任务上训练了好几周），删去网络的最后一层（全连接层），根据我们的任务进行调整，最后只训练我们的分类器图层。...处理亚马逊评论为了加深对这种方法的理解，我们在另一个公开数据集上试了试。...我们发现，仅用1000个案例，模型就达到了在全部数据上训练的FastText模型的表现成果。而用100个案例进行训练，模型也能表现出不错的性能。 ?...Emily Bender在推特上曾提出了一个有趣的“泰语实验”：“假设给你所有泰语书籍，没有译文。假如你一点都不懂泰语，你永远不会从中学会什么。”

8181 1

点击加载更多

Eir-8B 专为医学领域打造的先进大语言模型！

泰国文字识别技术：推动着泰国数字化转型的进程

ACL 2025 高分接收 | 高感情语音技术：逻辑智能小语种TTS破局之道

一个Java中操作字符串的类库 (Underscore.string.java)

展开操作符：一家人就这么被拆散了

东南亚电商多语言适配难？轻量化更新如何让商品 3 天覆盖 10 国？

增加对粤语、韩语支持，准确率提升10%，腾讯云发布专属语音识别模型

我们搞了个能自动翻译的客服系统，小语种也不在话下！

达摩院发布大模型测试基准：GPT-4勉强及格，其他模型悉数落败

奇声（IQDubbing）-- 面向影视剧的AI配音技术

泰国文字OCR技术的应用，为泰国文字信息的快速处理和利用提供助力

反卷积，上采样，上池化的理解

Kubernetes上的Backstage

shell的进阶上

Go程序例子(18)：字符串与“字符”

Proxmox上的Kubernetes

Linux上的Podman

Upstage为何构建小型语言模型

上云上的差点破产是什么体验？

到底什么方法训练1000个样本，就能完成400万条评论分类！

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐