英文文本清洗函数
因为电脑只能识别数字,所以得需要固定字符串对应固定id(为什么要固定?因为调整好的参数对应的是最近上次的数据,上次你保存下来,根据师兄经验,这次你读入的不一定是固定字符串对应固定id,很可能上次的那就是白调了,浪费时间) 宏观上,也可以说是特征向量对应固定id
这里写到文件后的数据:
The 0
Rock 1
is 2
destined 3
to 4
be 5
the 6
21st 7
Century 8
's 9
new 10
`` 11
Conan 12
'' 13
and 14
that 15
he 16
going 17
make 18
a 19
splash 20
even 21
greater 22
than 23
Arnold 24
Schwarzenegger 25
, 26
Jean-Claud 27
Van 28
Damme 29
or 30
Steven 31
Segal 32
. 33
这些以后可以直接用,建个Reader,Alphabet类 放进去。
下次再慢慢介绍别的类
在此,感谢实验室余南师兄的耐心指导。