导读:本文是“数据拾光者”专栏的第一百篇文章,这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本篇主要分享了手把手零代码基于DeepSeek+飞书多维表格实现数据标注任务。
欢迎转载,转载请注明出处以及链接,更多关于自然语言处理、推荐系统优质内容请关注如下频道。
知乎专栏:数据拾光者
公众号:数据拾光者
之前做内容理解工作最常见的就是文本分类、关键词抽取等数据标注任务,因为主要属于有监督学习任务,需要标注一定数量的数据。这也是最让人头疼的,因为标注数据是个体力活,又累人,又没啥技术含量。
自从ChatGPT、DeepSeek这一类大模型火了之后,我们也探索过用大模型通过prompt工程技术来帮助我们标注数据。之前也写过相关文章,这里不再赘述。但是中间还是有一系列麻烦的数据导入导出、写接口代码调用大模型标注啥的,需要一定的编程门槛。现在飞书也接入了DeepSeek模型,大大简化了整个标注数据流程。我们要做的就是准备好需要标注的文本数据,然后进行简单配置就可以利用飞书的多维表格和DeepSeek R1牛逼的推理能力帮我们标注,真正大幅降低标注人力成本。下面我们直接发车手把手带你用飞书的多维表格和DeepSeek R1来进行数据标注任务,保证几分钟之内学会。在飞书上新建多维表格。下面是飞书官网:
https://www.feishu.cn/
将准备好的20条情感分析的样本示例放到表格中,点击新增列+号,选择搜索字段捷径,然后选择DeepSeek R1,如下图所示:
这里需要填写“选择指令内容”,选择文本这一列。这里的作用就是对表格中文本数据这列进行打标:
点击自定义要求,填写对应的提示词。比如我们希望对文本这一列的数据进行情感分类任务,可以这么写:“我是一个数据标注人员,想对这里的文本数据进行情感分类,请根据文本输出喜欢或者不喜欢”。根据需要选择是否输出“思考过程”。最后点击确定,等待模型输出结果:
下面是DeepSeek的思考过程和输出结果,和标签结果一模一样。可能这里的任务比较简单,所以对DeepSeek来说比较容易。因为实际任务会复杂很多,用户可以根据实际情况进行优化。下面是输出结果:
有时候DeepSeek的输出结果可能并不是完全按照我们希望输出的标签结果进行规整的,比如可能输出“喜欢”、“不喜欢”、“厌恶”之类的。这时候可以通过智能标签进行规整,继续点击+号,选择字段捷径中心下的智能标签,然后添加固定的两个标签“喜欢”和“不喜欢”,配置里的字段选择“DeepSeek R1.输出结果”,最后点击确定即可。
码字不易,欢迎小伙伴们关注和分享。
领取专属 10元无门槛券
私享最新 技术干货