我使用AWS Textract从文档中提取文本,但是,一些句子被撕开,我需要使用Tensorflow将它们重新组合在一起。我对TensorFlow非常陌生,因此我不知道需要什么样的模型配置才能实现这一点。这里有一些我需要模型来预测的例子。], { }, "part": "computer in the room." &quo
我想用huggingface做中文文本相似度: tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
model = TFBertForSequenceClassification.from_pretrained('bert-base-chinese') 它不工作,系统报告错误: Some weights of the model checkpoint at bert-base-chinese were not但
我已经用了相当长一段时间了,用PyTorch实现谷歌的 by 来制作1.0数据集。直到最后一次(11月至2月),我一直在使用库,并获得了一个F分数 of 0.81为我的命名实体识别任务,通过微调模型。模型的指定最大序列长度(632 >512个)。通过BERT运行此序列将导致索引错误。
完整的代码在这个中可用。为了避免这个错误,我将上面的语句修改为下面的语句,获取任何序列的前512个标记,并进行必要的更改,