专栏首页ThoughtWorks如何实现一个优雅的Python的Json序列化库

如何实现一个优雅的Python的Json序列化库

在Python的世界里,将一个对象以json格式进行序列化或反序列化一直是一个问题。Python标准库里面提供了json序列化的工具,我们可以简单的用json.dumps来将一个对象序列化。但是这种序列化仅支持python内置的基本类型。

在Python的世界里,将一个对象以json格式进行序列化或反序列化一直是一个问题。Python标准库里面提供了json序列化的工具,我们可以简单的用json.dumps来将一个对象序列化。但是这种序列化仅支持python内置的基本类型,对于自定义的类,我们将得到Object of type A is not JSON serializable的错误。

有很多种方法可以用来支持这种序列化,这里(https://stackoverflow.com/questions/3768895/how-to-make-a-class-json-serializable)有一个很长的关于这个问题的讨论。总结起来,基本上有两种还不错的思路:

  • 利用标准库的接口:从python标准json库中的JSONDecoder继承,然后自定义实现一个default方法用来自定义序列化过程
  • 利用第三方库实现:如jsonpickle jsonweb json-tricks

利用标准库的接口的问题在于,我们需要对每一个自定义类都实现一个JSONDecoder.default接口,难以实现代码复用。

利用第三方库,对我们的代码倒是没有任何侵入性,特别是jsonpickle,由于它是基于pickle标准序列化库实现,可以实现像pickle一样序列化任何对象,一行代码都不需要修改。

但是我们观察这类第三方库的输出的时候,会发现所有的这些类库都会在输出的json中增加一个特殊的标明对象类型的属性。这是为什么呢?Python是一门动态类型的语言,我们无法在对象还没有开始构建的时候知道对象的某一属性的类型信息,为了对反序列化提供支持,看起来确实是不得不这么做。

有人可能觉得这也无可厚非,似乎不影响使用。但是在跨语言通信的时候,这就成为了一个比较麻烦的问题。比如我们有一个Python实现的API,客户端发送了一个json请求过来,我们想在统一的一个地方将json反序列化为我们Python代码的对象。由于客户端不知道服务器端的类型信息,json请求里面就没法加入这样的类型信息,这也就导致这样的类库在反序列化的时候遇到问题。

能不能有一个相对完美的实现呢?先看一下我们理想的json序列化库的需求:

  • 我们希望能简单的序列化任意自定义对象,只添加一行代码,或者不加入任何代码。
  • 我们希望序列化的结果不加入任何非预期的属性。
  • 我们希望能按照指定的类型进行反序列化,能自动处理嵌套的自定义类,只需要自定义类提供非常简单的支持,或者不需要提供任何支持。
  • 我们希望反序列化的时候能很好的处理属性不存在的情况,以便在我们加入某一属性的时候,可以设置默认值,使得旧版本的序列化结果可以正确的反序列化出来。

如果有一个json库能支持上面的四点,那就基本是比较好用的库了。下面我们来尝试实现一下这个类库。

对于我们想要实现的几个需求,我们可以建立下面这样的测试来表达我们所期望的库的API设计:

 class A(JsonSerializable):
  def __init__(self, a, b):    super().__init__()    self.a = a    self.b = b if b is not None else B(0)
  @property  def id(self):    return self.a
  def _deserialize_prop(self, name, deserialized):    if name == 'b':      self.b = B.deserialize(deserialized)      return    super()._deserialize_prop(name, deserialized)
class B(JsonSerializable):      def__init__(self,b):    super().__init__()    self.b = b
class JsonSerializableTest(unittest.TestCase):
   def test_model_should_serialize_correctly(self):    self.assertEqual(json.dumps({'a': 1, 'b': {'b': 2}}), A(1, B(2)).serialize())     def test_model_should_deserialize_correctly(self):    a = A.deserialize(json.dumps({'a': 1, 'b': {'b': 2}}))    self.assertEqual(1, a.a)    self.assertEqual(2,a.b.b)         def test_model_should_deserialize_with_default_value_correctly(self):    a = A.deserialize(json.dumps({'a': 1}))    self.assertEqual(1, a.a)    self.assertEqual(0, a.b.b)

这里我们希望通过继承的方式来添加支持,这将在反序列化的时候提供一个好处。因为有了它我们就可以直接使用 A.deserialize 方法来反序列化,而不需要提供任何其他的反序列化函数参数,比如这样 json.deserialize(serialized_str, A)。

同时为了验证我们的框架不会将@property属性序列化或者反序列化,我们特意在类 A中添加了这样一个属性。

由于在反序列化的时候,框架是无法知道某一个对象属性的类型信息,比如测试中的A.b,为了能正确的反序列化,我们需要提供一点简单的支持,这里我们在类A中覆盖实现了一个父类的方法 _deserialize_prop 对属性 b的反序列化提供支持。

当我们要反序列化一个之前版本的序列化结果时,我们希望能正确的反序列化并使用我们提供的默认值作为最终的反序列化值。这在属性A.b的测试中得到了体现。

(上面的测试有很多边界的情况、支持的变量类型并没有覆盖,此测试只是作为示例使用。)

如果能有一个类可以让上面的测试通过,相信那个类就是我们所需要的类了。这样的类可以实现为如下:

def is_normal_prop(obj, key):  is_prop = isinstance(getattr(type(obj), key, None), property)  is_func_attr = callable(getattr(obj, key))  is_private_attr = key.startswith('__')  return not (is_func_attr or is_prop or is_private_attr)
def is_basic_type(value):  return value is None or type(value) in [int, float, str, bool] class JsonSerializable:
  def _serialize_prop(self, name):    return getattr(self, name)                   def _as_dict(self):    props = {}    for key in dir(self):      if not is_normal_prop(self, key):        continue      value = self._serialize_prop(key)      if not (is_basic_type(value) or isinstance(value, JsonSerializable)):        raise Exception('unknown value to serialize to dict: key={}, value={}'.format(key, value))      props[key] = value if is_basic_type(value) else value._as_dict()    return props
  def serialize(self):    return json.dumps(self._as_dict(), ensure_ascii=False)
  def _deserialize_prop(self, name, deserialized):    setattr(self, name, deserialized)
  @classmethod  def deserialize(cls, json_encoded):    if json_encoded is None:      return None
    args = inspect.getfullargspec(cls)    args_without_self = args.args[1:]    obj = cls(*([None] * len(args_without_self)))
    data = json.loads(json_encoded, encoding='utf8') if type(json_encoded) is str else json_encoded    for key in dir(obj):      if not is_normal_prop(obj, key):        continue      if key in data:        obj._deserialize_prop(key, data[key])     return obj

在实现时,我们利用了Python的内省机制,这样就可以自动的识别对象的属性及运行时类型了。当然对于这个简单的类还有很多待支持的功能,使用上也有很多限制,比如:

  • 当某一属性为自定义类的类型的时候,需要子类覆盖实现_deserialize_prop方法为反序列化过程提供支持
  • 当某一属性为由自定义类构成的一个list tuple dict复杂对象时,需要子类覆盖实现_deserialize_prop方法为反序列化过程提供支持
  • 简单属性必须为python内置的基础类型,比如如果某一属性的类型为numpy.float64,序列化反序列化将不能正常工作

虽然有上述限制,但是这正好要求我们在做模型设计的时候保持克制,不要将某一个对象设计得过于复杂。比如如果有属性为dict类型,我们可以将这个dict抽象为另一个自定义类型,然后用类型嵌套的方式来实现。

到这里这个基类就差不多可以支撑我们日常的开发需要了。当然对于这个简单的实现还有可能有其他的需求或者问题,大家如有发现,欢迎留言交流。

本文分享自微信公众号 - ThoughtWorks洞见(TW-Insights),作者:廖光明

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-09-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何成为一个技术全面的架构师|洞见

    本文首发于infoQ: http://www.infoq.com/cn/articles/the-well-rounded-architect 架构师是一个充满...

    ThoughtWorks
  • 我们为什么做社区?

    很多同学在加入ThoughtWorks之后,会频繁的听到和提起“社区”这个词,以及越来越多的参与到“社区活动”中,无论是自发的还是被影响的,都会对社区有更深的接...

    ThoughtWorks
  • 钟健鑫:《Docker打造App-Centric交付》

    作为一家服务于全球不同类型客户的IT专业服务公司,ThoughtWorks一直追求最卓越的技术,并用它们来解决客户实际的问题。而为了体现技术卓越,Thought...

    ThoughtWorks
  • Python3爬取汽车目标经销商数据

    本文采用Python3进行语法编写,Python3与Python2中的函数会有所不同,但是相差不大,具体的问题可以百度找到,因有朋友在做汽车方面的业务,因此需要...

    机器学习AI算法工程
  • Python Data Model

    概述 最近在看《Fluent Python》一书,书中解释了Python很多重要的设计理念和实践,下面是我在看此书的读书笔记。Python的设计思想主要体现在它...

    BrianLv
  • DQN系列(3): 优先级经验回放(Prioritized Experience Replay)论文阅读、原理及实现

    通常情况下,在使用“经验”回放的算法中,通常从缓冲池中采用“均匀采样(Uniformly sampling)”,虽然这种方法在DQN算法中取得了不错的效果并登顶...

    J.Q.Wang@2048
  • ECCV2020 | SOD100K:超低参数量的高效显著性目标检测算法,广义OctConv和动态权重衰减

    论文地址:https://arxiv.org/pdf/2003.05643.pdf

    AI算法修炼营
  • iOS 启动页后广告Demo

    重点!       对于启动页后的广告,相信大家也都看到过很多很多的,比如我自己常看到的有 QQ音乐,爱奇艺了。你点击了APP,它会启动就会随之启动。。其实...

    Mr.RisingSun
  • python序列化:json,pickl

    什么是序列化,把程序中的对象或者变量,从内存中转换为可存储或可传输的过程称为序列化。在 Python 中,这个过程称为 pickling,在其他语言中也被称为 ...

    py3study
  • PyQt QTabWidget

    本篇主要介绍 QTabWidget的用法, 也会顺带介绍 QRadioButton 的分组, 以及 复合窗口部件的创建 。

    用户6021899

扫码关注云+社区

领取腾讯云代金券