首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

怎么英文大语言模型支持中文?(三)进行指令微调

前面已经讲过: 怎么英文大语言模型支持中文?(一)构建中文tokenization 怎么英文大语言模型支持中文?(二)继续预训练 这里是最后一部分了:怎么英文大语言模型支持中文?...比如一般看一下input_ids里面的特殊标记,labels是怎么构造的。...这里我们看下chatglm的数据格式是怎么样的,在test_dataset.py里面: import logging import os from dataclasses import dataclass...怎么是自己预测自己。这是因为一般的模型内部在前向计算的时候已经帮我们处理了: input_ids = input_ids[-1] labels=labels[1:]。...model.chat(tokenizer, "你好", history=[]) print(response) response, history = model.chat(tokenizer, "晚上睡不着应该怎么

90930
您找到你想要的搜索结果了吗?
是的
没有找到

怎么英文大预言模型支持中文?(二)继续预训练

代码已上传到github: https://github.com/taishan1994/chinese_llm_pretrained Part1前言 前面我们已经讲过怎么构建中文领域的tokenization...我们新增加了一些中文词汇到词表中,这些词汇是没有得到训练的,因此在进行指令微调之前我们要进行预训练。预训练的方式一般都是相同的,简单来说,就是根据上一个字预测下一个字是什么。...首先我们看看是怎么处理数据的, 数据位于data下,分别为corpus.txt和test_corpus.txt,每一行为一句或多句话。...萧 炎 的 脸 庞 在 不 同 时 期 会 发 出 来 , 这 样 的 眉 目 和 眉 目 能 够 很 容 易 的 在 一 起 , 能 够  人 看 得 见 的 就 是 这 样 的 眉 目 。 ...Part5总结 到这里,你已经了解了怎么构建中文词表并继续预训练了,接下来可能你还想了解指令微调,那我们下期再见。

84320

如何windows更好的支持Linux开发

我比较烦的是linux或者说mac上的命令在windows上不能用,再次降低了我的开发效率。要是在windows上执行一个脚本,就必须用第三方的软件了,还要切换目录。...powershell的配置,其实主要是在【设置】里:当然,部分的windows电脑没有git bash选项,需要自己去添加:其它的字体颜色等个性化设置,可以点击这里设置:注:windows这样配置,可能会出现中文乱码问题...shigen也很喜欢这一款软件:更新快,基本每周都有更新开源,强大的社区生态插件多,主流的开发语言都有整合UI很好看轻巧,不像IDEA一样很重配置基于json,方便修改、导出、迁移那这里怎么配置呢?...其实这个最简单:新建终端,测试一下效果:至此,我们已经可以用git bash替换默认的终端,windows更好的支持Linux的开发了。...以上就是今天分享的全部内容了,觉得不错的话,记得点赞 在看 关注支持一下哈,您的鼓励和支持将是shigen坚持日更的动力。与**shigen**一起,每天不一样!

14710
领券