中午在吃午饭的时候,就想不知道直接使用ChatGPT来做中文分词效果会怎么样,结果就是中午没休息好,下午有点晕。。。
图片来自网络(本来想用文心生成一个的,但是不给力)
一个待分词的句子
来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”
这个句子使用结巴进行分词的结果如下:
来到/杨过/曾经/生活/过/的/地方/,/小龙女/动情/地说/:/“/我/也/想/过/过/过儿/过过/的/生活/。/”
这个分词是不对的。
使用ChatGPT
提问:请对这句话进行中文分词:来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”
回答:来到 / 杨过 / 曾经 / 生活过 / 的 / 地方 / , / 小龙女 / 动情地 / 说 / : / “ / 我 / 也 / 想 / 过过过儿 / 过过 / 的 / 生活 / 。 / ”
(这个分词也是不对的,于是就想告诉它一些背景信息)
提问:错了,过儿是小龙女对杨过的称呼
回答:非常抱歉,我的上一条回答出现了错误。正确的中文分词应该是:
来到 / 杨过 / 曾经 / 生活过 / 的 / 地方 / , / 小龙女 / 动情地 / 说 / :/ “ / 我 / 也 / 想 / 过 / 过儿 / 过过 / 的 / 生活 / 。/ ”
其中,“过儿”是小龙女对杨过的称呼,应该将“过”和“儿”分开。非常抱歉给您带来的困扰。
(这个很奇怪,回答里漏了一个“过”字,而且后面的分析有逻辑问题)
提问:怎么漏了一个字
回答:非常抱歉,我的上一条回答中出现了错误,漏掉了一个字。正确的中文分词应该是:
来到 / 杨过 / 曾经 / 生活过 / 的 / 地方 / , / 小龙女 / 动情地 / 说 / :/ “ / 我 / 也 / 想 / 过 / 过儿 / 的 / 生活 / 。/ ”
感谢您的提醒,非常抱歉给您带来的困扰。
(态度很好,但是漏的字更多了。。。)
完善提问的方式
前面的提问可能对ChatGP不够友好,应该一开始就把背景给它说清楚。
提问:假设小龙女称杨过为过儿,请对下面这句话进行中文分词:来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”
回答:来到 / 杨过 / 曾经 / 生活过 / 的 / 地方 / , / 小龙女 / 动情地 / 说 / :/ “ / 我 / 也 / 想 / 过 / 过过 / 过儿 / 的 / 生活 / 。/ ”
(还是漏了一些字。。。)
提问:错了,你的回答漏了一些字
回答:非常抱歉,我确实犯了一个错误。下面是正确的分词:
来到 / 杨过 / 曾经 / 生活过 / 的 / 地方, / 小龙女 / 动情地 / 说 / :/ “ / 我 / 也 / 想 / 过 / 过过 / 的 / 生活 / 。/ ”
其中,“过过”和“过儿”是两个不同的词,需要分开处理。
(偏差更大了。。。)
更完善的提问
提问:假设小龙女称杨过为过儿,请对下面这句话进行中文分词,注意不要漏字:来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”
回答:来到 / 杨过 / 曾经 / 生活过 / 的 / 地方,/ 小龙女 / 动情地 / 说 / :/ “ / 我 / 也 / 想 / 过过 / 过儿 / 过过 / 的 / 生活 / 。/ ”
(这个答案终于是对的了)
小结
好像对于中文分词,使用ChatGPT效果也不是太好(上面使用的不是最新版本的),需要提供比较完善的背景信息,才能得出比较好的效果。
不过使用ChatGPT最大的优势在于,我们可能并不需要去标注数据(这个成本是很高,而且不同场景下的分词可能是不同的)优化效果,只需要优化我们的提示技巧,这个相对而言就简单很多了。
当前整个NLP的技术基础被降维打击了。。。
PS:如果大模型用于警察办案,是不是神器,它自己就能将所有资料整合在一起,还能进行分析,找出嫌疑人,警察叔叔要做的就是补充相关资料,验证嫌疑人。。。(人就变成跑腿了
)