前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >你与数据科学家只差这 26 条 Python 技巧

你与数据科学家只差这 26 条 Python 技巧

作者头像
崔庆才
发布2019-05-06 11:07:43
5180
发布2019-05-06 11:07:43
举报

转载来源

公众号:Python数据科学

阅读本文大概需要 11 分钟。

Python 是目前世界上最流行的编程语言之一。因为:

1.它容易学习

2.它用途超广

3.它有非常多的开源支持(大量的模块和库)

作者 Peter Gleeson 是一名数据科学家,日常工作几乎离不 python。一路走来,他积累了不少有用的技巧和 tips,现在就将这些技巧分享给大家。这些技巧将根据其首字母按 A-Z 的顺序进行展示。

ALL OR ANY

Python 之所以成为这么一门受欢迎的语言一个原因是它的可读性和表达能力非常强。Python 也因此经常被调侃为“可执行的伪代码”。不信你看:

x = [True, True, False]
if any(x):
    print("At least one True")
if all(x):
    print("Not one False")
if any(x) and not all(x):
    print("At least one True and one False")

BASHPLOTIB

你想要在控制台绘图嘛?

$ pip install bashplotlib

现在,你的控制台中就可以有图了

COLLECTIONS

Python 有一些很棒的默认数据类型,但是有时候他们并不会像你所希望的那样发挥作用。 幸运的是,Python 标准库提供了 collection 模块。它让你可以使用更为多样数据类型。

from collections import OrderedDict, Counter
# Remembers the order the keys are added!
x = OrderedDict(a=1, b=2, c=3)
# Counts the frequency of each character
y = Counter("Hello World!")

DIR

面对一个 Python 对象,你是否曾想过可以直接看到其属性?你也许可以试试以下的代码:

>>> dir()
>>> dir("Hello World")
>>> dir(dir)

这是运行 Python 的时候一个非常有用的功能,用于动态探索你所使用的对象和模块。更多详情,可以查看这里:https://docs.python.org/3/library/functions.html#dir

EMOJI

对的,你没看错!

$ pip install emoji

用 python 来创建表情包,你也可以。

from emoji import emojize
print(emojize(":thumbs_up:"))

?

FROM_FUTURE_IMPORT

Python 非常受欢迎,这也就导致了它的版本更新非常快,新的版本往往会有很多新特性。你不更新,就无法使用。

然而,不要害怕。__future__ 模块可以让你导入未来版本的功能。有点像时空穿梭有木有!

from __future__ import print_function
print("Hello World!")

GEOPY

对于程序猿来说地理可能是一个非常有挑战性的领域。但是,geopy 模块则让它变得非常简单。

$ pip install geopy

它通过提取一系列不同地理编码服务的 api 来工作,让你能够获得一个地方的完整街道地址、纬度、经度,甚至海拔。

这里面同时还包含一个有用的“距离”类别。它能使用你选定的度量去计算了两个地点之间的距离。

from geopy import GoogleV3
place = "221b Baker Street, London"
location = GoogleV3().geocode(place)
print(location.address)
print(location.location)

HOWDOI

有时候你碰到了一个编程问题,觉得自己之前明明见过它的解决方法,但是却记不起来具体是怎么样的了。于是你想要去 StackOverflow 上找,但又不想离开这个终端。这个时候,你需要下面这个工具——howdoi

$ pip install howdoi

你所遇到的任何问题都可以问它,它会尽他所能给你返回一个答案。

$ howdoi vertical align css
$ howdoi for loop in java
$ howdoi undo commits in git

需要注意的是——它只从 StackOverflow 最顶端的答案中抓取代码。所以它给你返回的不总是最有用的信息...

$ howdoi exit vim

INSPECT

Python 的 inspect 模块用于收集 Python 对象的信息,可以获取类或函数的参数的信息,源码,解析堆栈等等

下方的代码样例使用了 inspect.getsource() 来打印它自身的源码。同样还使用了 inspect.getmodule() 来打印定义了 inspect.getmodule() 的模块。最后一行代码则是打印了本行代码所在的行号。在本例中,就是 4 。

import inspect
print(inspect.getsource(inspect.getsource))
print(inspect.getmodule(inspect.getmodule))
print(inspect.currentframe().f_lineno)

inspect 模块可以有效地让你知道你的代码是如何工作的,你也可以利用它来完成一些个人的源码。

JEDI

Jedi 库是一个代码自动补齐和静态分析的库。它可以使你更快更高效地书写代码。 除非你在开发自己的编辑器,否则你可能会非常喜欢将 Jedi 作为自己的编辑插件。

你可能已经正在使用 Jedi 而只是没发现。IPython 项目就是利用 Jedi 来实现其自动补全功能。

**KWARGS

无论你学习那种语言,在这条学习之路上总有那么一些里程碑。在 Python 的编程学习中,理解神秘的 **kwargs 语法应该算是一个重要的里程碑。

双星“**”放在字典的前面可以让你将字典的内容作为命名参数传递给函数。字典的键是参数的名字,键的值作为参数的值传递给函数。如下所示:

dictionary = {"a": 1, "b": 2}
def someFunction(a, b):
    print(a + b)
    return
# these do the same thing:
someFunction(**dictionary)
someFunction(a=1, b=2)

当你想要创建一个函数,它需要能处理事先没有定义过的参数,那么就要用到前面提到的技巧了。

LIST COMPREHENSIONS

List comprehensions(列表推导式)

列表推导式可以说是我最喜欢的 Python 技巧之一。这种表达式可以让你写出像自然语言一样易于理解并且还很简洁的代码。

你可以通过这个链接了解更多关于列表推导式的用法。地址:https://www.learnpython.org/en/List_Comprehensions

numbers = [1,2,3,4,5,6,7]
evens = [x for x in numbers if x % 2 is 0]
odds = [y for y in numbers if y not in evens]
cities = ['London', 'Dublin', 'Oslo']
def visit(city):
    print("Welcome to "+city)
for city in cities:
    visit(city)

 MAP

Python 有许多非常有用的内置函数。其中一个就是 map()——特别是和 lambda 函数相结合的时候。

x = [1, 2, 3]
y = map(lambda x : x + 1 , x)
# prints out [2,3,4]
print(list(y))

在这个例子中,map() 对 x 中的每一个元素都应用了一个简单的 lambda 函数。它会返回一个 map 对象,这个对象可以被转化成可迭代对象,如列表或者元组。

NEWSPAPER3K

newspaper3k, 如果你还没有见过它,那么你可能会被这个 Python newspaper 模块所惊艳到。 它可以让你检索到一系列国际领先出版物中的新闻和相关的元数据。你可以检索图片、文本和作者名。它甚至有一些内置的自然语言处理功能。所以,如果你正在考虑使用 BeautifulSoup 或其他自制的爬虫库来应用于你的下一个项目。那么,省省时间和精力吧,你其实只需要 $ pip install newspaper3k。

OPERATOR OVERLOADING(操作符重载)

Python 支持操作符重载。“操作符重载”其实是个简单的概念,你是否曾经想过为什么 Python 可以让你使用“+”操作符来同时实现加法和连接字符串?这就是操作符重载在发挥作用。

你可以定义使用 Python 标准操作符符号的对象,这可以让你在特定的环境中使用特定的对象,就像下方的例子一样。

class Thing:
    def __init__(self, value):
        self.__value = value
    def __gt__(self, other):
        return self.__value > other.__value
    def __lt__(self, other):
        return self.__value < other.__value
something = Thing(100)
nothing = Thing(0)
# True
something > nothing
# False
something < nothing
# Error
something + nothing

PPRINT

Python 的默认 print 函数可以满足日常的输出任务,但如果要打印更大的、嵌套式的对象,那么使用默认的 print 函数打印出来的内容会很丑陋。

这个时候我们就需要 pprint 了,它可以让复杂的结构型对象以可读性更强的格式显示。这对于经常要面对非普通数据结构的 Python 开发者来说是必不可少的工具。

import requests
import pprint
url = 'https://randomuser.me/api/?results=1'
users = requests.get(url).json()
pprint.pprint(users)

QUEUE(队列)

Python 支持多线程,它是通过标准库中的 Queue 模块来实现的。这个模块可以让你实现队列数据结构。这种数据结构可以让你根据特定的规则添加和检索条目。

“先进先出”(FIFO)队列可以让你按照添加对象的顺序来检索他们。“后进先出”(LIFO)队列可以让你首先访问最近添加的对象。最后,优先队列可以让你根据他们排序的顺序进行检索。

_REPR_

当你定义一个类的时候,提供一个方法可以返回用来表示该类对象的可打印字符串会非常有用。例如:

>>> file = open('file.txt', 'r')
>>> print(file)
<open file 'file.txt', mode 'r' at 0x10d30aaf0>

这使得 debug 更加方便,具体的定义方式如下:

class someClass:
    def __repr__(self):
        return "<some description here>"
someInstance = someClass()
# prints <some description here>
print(someInstance)

SH

sh 库让你像调用方法那样调用系统中的命令。

import sh
sh.pwd()
sh.mkdir('new_folder')
sh.touch('new_file.txt')
sh.whoami()
sh.echo('This is great!')

TYPE HINT(类型提示)

Python 是一种动态类型语言。当你定义变量、函数、类别的时候,你不需要指定数据的类型。这可以大大提升你的开发速度,但也是有代价的。你可能会因为一个简单的输入问题而导致运行出错。

在 Python3.5 之后,这就不是问题了,在定义函数的时候你可以自主选择要不要提供类型提示。

def addTwo(x : Int) -> Int:
    return x + 2

你还可以定义类型的别名:

from typing import List
Vector = List[float]
Matrix = List[Vector]
def addMatrix(a : Matrix, b : Matrix) -> Matrix:
  result = []
  for i,row in enumerate(a):
    result_row =[]
    for j, col in enumerate(row):
      result_row += [a[i][j] + b[i][j]]
    result += [result_row]
  return result
x = [[1.0, 0.0], [0.0, 1.0]]
y = [[2.0, 1.0], [0.0, -2.0]]
z = addMatrix(x, y)

虽然不是强制性的,类型注释可以让你的代码理解起来更加简单。它们也允许你使用类型检测工具在运行之前捕获这些零散的类型错误。如果你正在从事大型、复杂的项目,那么类型注释也许会非常有帮助

UUID

通过 Python 标准库中的 uuid 模块,可以快速并简单地生成统一的唯一ID(又称UUID).

import uuid
user_id = uuid.uuid4()
print(user_id)

UUID 是128位的全局唯一标识符,通常由32字节的字符串表示。它可以保证时间和空间的唯一性,也称为 GUID,全称为:UUID —— Universally Unique IDentifier,Python 中叫 UUID。它通过 MAC 地址、时间戳、命名空间、随机数、伪随机数来保证生成ID的唯一性。

VRITUAL ENVIRONMENTS

这可能是我最喜欢的 Python技巧 了。你可能经常要处理不止一个 Python 项目,不幸的是,有时候不同项目会依赖不同的Python版本。这个时候,你应该在系统里安装哪个 Python 版本呢?

幸运的是,Python 可以支持建立不同的虚拟环境来满足不同的版本需求。

python -m venv my-project
source my-project/bin/activate
pip install all-the-modules 

现在你可以在一台机器上安装和运行各个独立版本的 Python。太棒了!

WIKIPEDIA

Wikipedia 有一个很棒的 API,它可以让用户通过编程访问到维基的词条内容。使用 Python 中的 wikipedia 模块可以让你以最便捷的方式访问该 API。

import wikipedia
result = wikipedia.page('freeCodeCamp')
print(result.summary)
for link in result.links:
    print(link)

与真实站点一样,该模块支持多种语言、页面消除歧义、随机页面检索,甚至还有 donate() 方法。

YAML

YAML 是 “YAML 不是一种标记语言”的外语缩写。它是一个数据格式语言,是 JSON 的父集。和 JSON 不同的是,它可以存储更复杂的对象,并且可以引用自身的元素。你还可以写注释,这让 YAML 特别适合于书写配置文件。

PyYAML 模块可以让你使用 Python 调用 YAML。使用下列语句安装:

$ pip install pyyaml

然后导入到项目中:

import yaml

PyYAML 使你能够储存任何数据类型的 Python 对象,以及任何用户定义类的实例。

ZIP

最后一个技巧也非常酷。你是否曾想要让两个列表中的元素逐个映射,组合成字典?那么你应该使用 zip。

keys = ['a', 'b', 'c']
vals = [1, 2, 3]
zipped = dict(zip(keys, vals))

内置函数 zip() 接收若干可迭代对象,然后返回一个由多个元组组成的列表。每个元组根据输入对象的位置索引对其元素进行分组。还可以使用 *zip() 来“解压”对象。

python 大法好,掌握这些小的技巧,助你在 python 大神的道路上,披荆斩棘,所向披靡。

原文链接:

https://medium.freecodecamp.org/an-a-z-of-useful-python-tricks-b467524ee747

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-02-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 进击的Coder 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档