我正在尝试标记一个文件中的所有拉丁字母组成,例如:
This is English. 这是中文。 This is more English.
这将被标记为:
\english{This is English.} 这是中文。 \english{This is more English.}
我尝试使用sed来标记这些单词:
sed 's/[A-Za-z0-9 ]*/\\english{&}/g' file
运行后,它基本上是正确的,但是,它也是在所有中文字符之间放置标记,例如:
\english{This is English.} 这\english{}是\english{