前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用Unix工具解析JSON

使用Unix工具解析JSON

作者头像
程序熵
发布2024-07-25 11:16:41
390
发布2024-07-25 11:16:41
举报
文章被收录于专栏:技术汇

问题

我正尝试解析由curl请求返回的JSON数据,具体做法如下:

代码语言:javascript
复制
curl 'http://twitter.com/users/username.json' |
    sed -e 's/[{}]/''/g' | 
    awk -v k="text" '{n=split($0,a,","); for (i=1; i<=n; i++) print a[i]}'

上述方法将JSON数据拆分为各个字段,例如:

代码语言:javascript
复制
% ...
"geo_enabled":false
"friends_count":245
"profile_text_color":"000000"
"status":"in_reply_to_screen_name":null
"source":"web"
"truncated":false
"text":"My status"
"favorited":false
% ...

如何打印特定的字段(由-v k=text表示)?

回答

有许多工具专门设计用于通过命令行操作JSON,使用这些工具比使用Awk要容易得多,也更可靠。比如jq

代码语言:javascript
复制
curl -s 'https://api.github.com/users/lambda' | jq -r '.name'

你也可以使用已经安装在你系统上的工具,比如使用Python的json模块,这样可以避免额外的依赖,同时仍然拥有一个合适的JSON解析器。 以下假设你希望使用UTF-8编码,原始JSON应该使用这种编码,这也是大多数现代终端使用的编码:

Python 3:

代码语言:javascript
复制
curl -s 'https://api.github.com/users/lambda' | \
    python3 -c "import sys, json; print(json.load(sys.stdin)['name'])"

Python 2:

代码语言:javascript
复制
export PYTHONIOENCODING=utf8
curl -s 'https://api.github.com/users/lambda' | \
    python2 -c "import sys, json; print json.load(sys.stdin)['name']"

为什么不使用纯shell解决方案?

标准的POSIX/Unix规范的shell是一个非常有限的语言,它不包含表示序列(列表或数组)或关联数组(在某些其他语言中也被称为哈希表、映射、字典或对象)的功能。这使得在可移植的shell脚本中表示解析JSON的结果有些棘手。有一些比较巧妙的方法可以做到这一点,但如果键或值包含某些特殊字符,许多方法可能会失效。

Bash 4及更高版本、zsh和ksh支持数组和关联数组,但这些shell并不普遍可用(由于从GPLv2更改为GPLv3,macOS停止更新Bash到Bash 3,而许多Linux系统默认没有安装zsh)。你可以编写一个在Bash 4或zsh中工作的脚本,其中之一在大多数macOS、Linux和BSD系统上都是可用的,但编写一个适用于这种多语言脚本的shebang行将非常困难。

最后,用shell编写一个功能齐全的JSON解析器将形成一个相当大的依赖项,你不如直接使用现有的依赖项,如jq或Python。实现一个良好的JSON解析器并不是一两行代码,甚至不是一个简短的五行片段就能完成的。

为什么不使用awk、sed或grep?

确实可以利用这些工具对已知结构和已知格式(例如每行一个键值)的JSON数据进行快速提取。在其他回答中已经给出了多个关于如何做到这一点的建议示例。

然而,这些工具是为基于行或基于记录的格式设计的;它们并不适用于递归解析配对的分隔符以及可能存在的转义字符。

因此,使用awk/sed/grep的这些快速而简易的解决方案很可能较为脆弱,如果输入格式的某些方面发生变化,比如压缩空白字符、在JSON对象中增加额外的嵌套层级,或者字符串内的转义引号,这些方案就可能会失效。一个足够健壮、能处理所有JSON输入而不崩溃的解决方案也会相对较大且复杂,因此与添加对jq或Python的额外依赖相比,区别并不会太大。

我曾经不得不处理由于shell脚本中不良输入解析而导致大量客户数据被删除的情况,所以我从不推荐可能在这种方式上脆弱的快速和粗鲁的方法。我强烈推荐只使用经过测试的现有JSON解析器。

参考

  • stackoverflow question 1955505
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序熵 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 问题
  • 回答
    • 为什么不使用纯shell解决方案?
      • 为什么不使用awk、sed或grep?
      • 参考
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档