我使用huggingface/transformers训练了文本分类模型,然后使用内置的ONNX功能导出它。
现在,我想用它来推断数百万的文本(大约一亿个句子)。我的想法是将所有文本放在一个Spark中,然后将DataFrame模型绑定到一个Spark中,然后在一个Spark集群上运行推理。
有更好的方法吗?我做的是“正确的方式”吗?
发布于 2022-08-23 11:56:22
由于需求(cf ),我不确定您是否知道和/或允许使用SynapseML。"SynapseML需要Scala2.12,Spark3.0+和Python3.6+,“到目前为止,在登陆页面上是这样的),但是SynapseML确实支持星火的ONNX推断。这可能是你最干净的解决方案。
编辑。还有,MLflow支持模型为。使用MLflow,您可以以ONNX格式保存模型,通过mlflow.onnx.log_model记录/注册模型,然后通过它的路径(即models:/<model-name>/<model-version> )在mlflow.pyfunc.spark_udf调用中检索它。
https://stackoverflow.com/questions/69251941
复制相似问题