• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

Python-Json操作

Python admin 4年前 (2015-11-08) 1050次浏览 0个评论 扫描二维码

什么是 json:

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于 JavaScript Programming Language, Standard ECMA-262 3rd Edition – December 1999 的一个子集。JSON 采用完全独立于语言的文本格式,但是也使用了类似于 C 语言家族的习惯(包括 C, C++, C#, Java, JavaScript, Perl, Python 等)。这些特性使 JSON 成为理想的数据交换语言。

JSON 建构于两种结构:

“名称/值”对的集合(A collection of name/value pairs)。不同的语言中,它被理解为对象(object),纪录(record),结构(struct),字典(dictionary),哈希表(hash table),有键列表(keyed list),或者关联数组 (associative array)。
值的有序列表(An ordered list of values)。在大部分语言中,它被理解为数组(array)。
这些都是常见的数据结构。事实上大部分现代计算机语言都以某种形式支持它们。这使得一种数据格式在同样基于这些结构的编程语言之间交换成为可能。

jso 官方说明参见:http://json.org/

Python 操作 json 的标准 api 库参考:http://docs.python.org/library/json.html

对简单数据类型的 encoding 和 decoding:

使用简单的 json.dumps 方法对简单数据类型进行编码,例如:

1
2
3
4
5
6
import json
obj = [[1,2,3],123,123.123,'abc',{'key1':(1,2,3),'key2':(4,5,6)}]
encodedjson = json.dumps(obj)
print repr(obj)
print encodedjson

输出:

[[1, 2, 3], 123, 123.123, ‘abc’, {‘key2’: (4, 5, 6), ‘key1’: (1, 2, 3)}]
[[1, 2, 3], 123, 123.123, “abc”, {“key2”: [4, 5, 6], “key1”: [1, 2, 3]}]

通过输出的结果可以看出,简单类型通过 encode 之后跟其原始的 repr()输出结果非常相似,但是有些数据类型进行了改变,例如上例中的元组则转换为了列表。在 json 的编码过程中,会存在从 python 原始类型向 json 类型的转化过程,具体的转化对照如下:

image

json.dumps()方法返回了一个 str 对象 encodedjson,我们接下来在对 encodedjson 进行 decode,得到原始数据,需要使用的 json.loads()函数:

1
2
3
4
decodejson = json.loads(encodedjson)
print type(decodejson)
print decodejson[4]['key1']
print decodejson

输出:

<type ‘list’>
[1, 2, 3]

[[1, 2, 3], 123, 123.123, u’abc’, {u’key2′: [4, 5, 6], u’key1′: [1, 2, 3]}]

loads 方法返回了原始的对象,但是仍然发生了一些数据类型的转化。比如,上例中‘abc’转化为了 unicode 类型。从 json 到 python 的类型转化对照如下:

image

json.dumps 方法提供了很多好用的参数可供选择,比较常用的有 sort_keys(对 dict 对象进行排序,我们知道默认 dict 是无序存放的),separators,indent 等参数。

排序功能使得存储的数据更加有利于观察,也使得对 json 输出的对象进行比较,例如:

1
2
3
4
5
6
7
8
9
10
data1 = {'b':789,'c':456,'a':123}
data2 = {'a':123,'b':789,'c':456}
d1 = json.dumps(data1,sort_keys=True)
d2 = json.dumps(data2)
d3 = json.dumps(data2,sort_keys=True)
print d1
print d2
print d3
print d1==d2
print d1==d3

输出:

{“a”: 123, “b”: 789, “c”: 456}
{“a”: 123, “c”: 456, “b”: 789}
{“a”: 123, “b”: 789, “c”: 456}
False
True

上例中,本来 data1 和 data2 数据应该是一样的,但是由于 dict 存储的无序特性,造成两者无法比较。因此两者可以通过排序后的结果进行存储就避免了数据比较不一致的情况发生,但是排序后再进行存储,系统必定要多做一些事情,也一定会因此造成一定的性能消耗,所以适当排序是很重要的。

indent 参数是缩进的意思,它可以使得数据存储的格式变得更加优雅。

1
2
3
data1 = {'b':789,'c':456,'a':123}
d1 = json.dumps(data1,sort_keys=True,indent=4)
print d1

输出:

{
“a”: 123,
“b”: 789,
“c”: 456
}

输出的数据被格式化之后,变得可读性更强,但是却是通过增加一些冗余的空白格来进行填充的。json 主要是作为一种数据通信的格式存在的,而网络通信是很在乎数据的大小的,无用的空格会占据很多通信带宽,所以适当时候也要对数据进行压缩。separator 参数可以起到这样的作用,该参数传递是一个元组,包含分割对象的字符串。

1
2
3
4
5
print 'DATA:', repr(data)
print 'repr(data)             :', len(repr(data))
print 'dumps(data)            :', len(json.dumps(data))
print 'dumps(data, indent=2)  :', len(json.dumps(data, indent=4))
print 'dumps(data, separators):', len(json.dumps(data, separators=(',',':')))

输出:

DATA: {‘a’: 123, ‘c’: 456, ‘b’: 789}
repr(data)             : 30
dumps(data)            : 30
dumps(data, indent=2)  : 46
dumps(data, separators): 25

通过移除多余的空白符,达到了压缩数据的目的,而且效果还是比较明显的。

另一个比较有用的 dumps 参数是 skipkeys,默认为 False。 dumps 方法存储 dict 对象时,key 必须是 str 类型,如果出现了其他类型的话,那么会产生 TypeError 异常,如果开启该参数,设为 True 的话,则会比较优雅的过度。

1
2
data = {'b':789,'c':456,(1,2):123}
print json.dumps(data,skipkeys=True)

输出:

{“c”: 456, “b”: 789}

 

处理自己的数据类型

json 模块不仅可以处理普通的 python 内置类型,也可以处理我们自定义的数据类型,而往往处理自定义的对象是很常用的。

首先,我们定义一个类 Person。

1
2
3
4
5
6
7
8
9
class Person(object):
    def __init__(self,name,age):
        self.name = name
        self.age = age
    def __repr__(self):
        return 'Person Object name : %s , age : %d' % (self.name,self.age)
if __name__  == '__main__':
    p = Person('Peter',22)
    print p

如果直接通过 json.dumps 方法对 Person 的实例进行处理的话,会报错,因为 json 无法支持这样的自动转化。通过上面所提到的 json 和 python 的类型转化对照表,可以发现,object 类型是和 dict 相关联的,所以我们需要把我们自定义的类型转化为 dict,然后再进行处理。这里,有两种方法可以使用。

方法一:自己写转化函数

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
'''
Created on 2011-12-14
@author: Peter
'''
import Person
import json
p = Person.Person('Peter',22)
def object2dict(obj):
    #convert object to a dict
    d = {}
    d['__class__'] = obj.__class__.__name__
    d['__module__'] = obj.__module__
    d.update(obj.__dict__)
    return d
def dict2object(d):
    #convert dict to object
    if'__class__' in d:
        class_name = d.pop('__class__')
        module_name = d.pop('__module__')
        module = __import__(module_name)
        class_ = getattr(module,class_name)
        args = dict((key.encode('ascii'), value) for key, value in d.items()) #get args
        inst = class_(**args) #create new instance
    else:
        inst = d
    return inst
d = object2dict(p)
print d
#{'age': 22, '__module__': 'Person', '__class__': 'Person', 'name': 'Peter'}
o = dict2object(d)
print type(o),o
#<class 'Person.Person'> Person Object name : Peter , age : 22
dump = json.dumps(p,default=object2dict)
print dump
#{"age": 22, "__module__": "Person", "__class__": "Person", "name": "Peter"}
load = json.loads(dump,object_hook = dict2object)
print load
#Person Object name : Peter , age : 22

上面代码已经写的很清楚了,实质就是自定义 object 类型和 dict 类型进行转化。object2dict 函数将对象模块名、类名以及 __dict__ 存储在 dict 对象里,并返回。dict2object 函数则是反解出模块名、类名、参数,创建新的对象并返回。在 json.dumps 方法中增加 default 参数,该参数表示在转化过程中调用指定的函数,同样在 decode 过程中 json.loads 方法增加 object_hook,指定转化函数。

方法二:继承 JSONEncoder 和 JSONDecoder 类,覆写相关方法

JSONEncoder 类负责编码,主要是通过其 default 函数进行转化,我们可以 override 该方法。同理对于 JSONDecoder。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
'''
Created on 2011-12-14
@author: Peter
'''
importPerson
importjson
p =Person.Person('Peter',22)
classMyEncoder(json.JSONEncoder):
    defdefault(self,obj):
        #convert object to a dict
        d ={}
        d['__class__'] =obj.__class__.__name__
        d['__module__'] =obj.__module__
        d.update(obj.__dict__)
        returnd
classMyDecoder(json.JSONDecoder):
    def__init__(self):
        json.JSONDecoder.__init__(self,object_hook=self.dict2object)
    defdict2object(self,d):
        #convert dict to object
        if'__class__'ind:
            class_name =d.pop('__class__')
            module_name =d.pop('__module__')
            module =__import__(module_name)
            class_=getattr(module,class_name)
            args =dict((key.encode('ascii'), value) forkey, value ind.items()) #get args
            inst =class_(**args) #create new instance
        else:
            inst =d
        returninst
d =MyEncoder().encode(p)
o =MyDecoder().decode(d)
printd
printtype(o), o

关于 json 操作文件

(PS:在此之前都是博主偷懒转载,貌似网上关于 json 操作文件的不多,写个小实例耍耍,转载自http://www.cnblogs.com/coser/archive/2011/12/14/2287739.html

import sys
import json
f=open('filetest','w');

x=json.dumps(['foo', {'bar': ('baz', None, 1.0, 2)}]);

json.dump(x,f);

f.close();

f=open('filetest','r');
y=json.load(f);
y1=json.loads(y);

for line in y1:
    print(line);
f.close();










Deeplearn, 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明Python-Json 操作
喜欢 (0)
admin
关于作者:
互联网行业码农一枚/业余铲屎官/数码影音爱好者/二次元

您必须 登录 才能发表评论!