我正在编写一个python程序,用于枚举网站的域名.例如,a.谷歌.com'.

首先,我使用threading模块来实现这一点:

import string
import time
import socket
import threading
from threading import Thread
from queue import Queue

'''
enumerate a site's domain name like this:
1-9 a-z + .google.com
1.google.com
2.google.com
.
.
1a.google.com
.
.
zz.google.com

'''

start = time.time()
def create_host(char):
    '''
    if char is '1-9a-z'
    create char like'1,2,3,...,zz'
    '''
    for i in char:
        yield i
    for i in create_host(char):
        if len(i)>1:
            return False
        for c in char:
            yield c + i


char = string.digits + string.ascii_lowercase
site = '.google.com'


def getaddr():
    while True:
        url = q.get()
        try:
            res = socket.getaddrinfo(url,80)
            print(url + ":" + res[0][4][0])
        except:
            pass
        q.task_done()

NUM=1000  #thread's num
q=Queue()

for i in range(NUM):
    t = Thread(target=getaddr)
    t.setDaemon(True)
    t.start()

for host in create_host(char):
    q.put(host+site)
q.join()

end = time.time()

print(end-start)

'''
used time:
9.448670148849487
'''

后来,我读了一本书,书中说在某些情况下,协同程序比线程更快.因此,我重写了代码,使用asyncio:

import asyncio
import string
import time


start = time.time()
def create_host(char):
    for i in char:
        yield i
    for i in create_host(char):
        if len(i)>1:
            return False
        for c in char:
            yield c + i


char = string.digits + string.ascii_lowercase
site = '.google.com'

@asyncio.coroutine
def getaddr(loop, url):
    try:
        res = yield from loop.getaddrinfo(url,80)
        print(url + ':' + res[0][4][0])
    except:
        pass

loop = asyncio.get_event_loop()
coroutines = asyncio.wait([getaddr(loop, i+site) for i in create_host(char)])
loop.run_until_complete(coroutines)

end = time.time()

print(end-start)


'''
time 
120.42313003540039
'''

为什么getaddrinfoasyncio版这么慢?我是不是误用了协同程序?

推荐答案

首先,我无法重现与您在我的Linux机器上看到的性能差异一样大的性能差异.我一直认为线程版本大约需要20-25秒,而asyncio版本则需要24-34秒.

现在,为什么asyncio变慢了?这其中有一些原因.首先,asyncio版本必须按顺序打印,但线程版本不能.打印是I/O,所以GIL可以在打印过程中释放.这意味着可能有两个或多个线程可以同时打印,尽管在实践中这种情况可能并不经常发生,而且可能不会对性能造成太大影响.

第二,更重要的是,the 101 version of 102 is actually 100:

def getaddrinfo(self, host, port, *,
                family=0, type=0, proto=0, flags=0):
    if self._debug:
        return self.run_in_executor(None, self._getaddrinfo_debug,
                                    host, port, family, type, proto, flags)
    else:
        return self.run_in_executor(None, socket.getaddrinfo,
                                    host, port, family, type, proto, flags)

它使用默认的ThreadPoolExecutorwhich only has five threads:

# Argument for default thread pool executor creation.
_MAX_WORKERS = 5

对于这个用例来说,这远没有你想要的那么多并行性.要使其更像threading版本,您需要使用ThreadPoolExecutorthreading0个线程,通过loop.set_default_executor将其设置为默认执行器:

loop = asyncio.get_event_loop()
loop.set_default_executor(ThreadPoolExecutor(1000))
coroutines = asyncio.wait([getaddr(loop, i+site) for i in create_host(char)])
loop.run_until_complete(coroutines)

现在,这将使行为更等同于threading,但实际上是you're really not using asynchronous I/O - you're just using 100 with a different API.因此,在这里,您所能做的最好的事情就是与threading示例相同的性能.

最后,在每个示例中,您并没有真正运行相同的代码——threading版本使用的是一组工作人员,他们共享queue.Queue,而asyncio版本正在为url列表中的每个项目生成一个协同程序.如果我让asyncio版本使用asyncio.Queue和一组协同程序,除了删除print语句和生成一个更大的默认执行器之外,我还可以获得与这两个版本基本相同的性能.以下是新的asyncio代码:

import asyncio
import string
import time
from concurrent.futures import ThreadPoolExecutor

start = time.time()
def create_host(char):
    for i in char:
        yield i
    for i in create_host(char):
        if len(i)>1:
            return False
        for c in char:
            yield c + i


char = string.digits + string.ascii_lowercase
site = '.google.com'

@asyncio.coroutine
def getaddr(loop, q):
    while True:
        url = yield from q.get()
        if not url:
            break
        try:
            res = yield from loop.getaddrinfo(url,80)
        except:
            pass

@asyncio.coroutine
def load_q(loop, q):
    for host in create_host(char):
        yield from q.put(host+site)
    for _ in range(NUM):
        yield from q.put(None)

NUM = 1000
q = asyncio.Queue()

loop = asyncio.get_event_loop()
loop.set_default_executor(ThreadPoolExecutor(NUM))
coros = [asyncio.async(getaddr(loop, q)) for i in range(NUM)]
loop.run_until_complete(load_q(loop, q))
loop.run_until_complete(asyncio.wait(coros))

end = time.time()

print(end-start)

以及每种产品的yields :

dan@dandesk:~$ python3 threaded_example.py
20.409344911575317
dan@dandesk:~$ python3 asyncio_example.py
20.39924192428589

但请注意,由于网络的原因,存在一些变化.这两种情况有时都会比这慢几秒钟.

Python-3.x相关问答推荐

如何从Django连接到Neo4J s AuraDB(免费层)?'

只有在Chrome尚未打开的情况下,打开Chrome后,PySimpleGUI窗口才会崩溃

在特定条件下从 DataFrame 中提取特定组

删除列表中的第二个出现

如何根据索引子列表对元素列表进行分组或批处理?

ImportError:抓取数据后找不到 html5lib

将逗号分隔的字符串类型系列转换为整数列表 pandas

Pandas DataFrame:使用 Pandas 将 NaN 值替换为 3 行以上的平均值

Dask 多阶段资源设置导致 Failed to Serialize 错误

使用 python 正则表达式匹配日期

创建一个可旋转的 3D 地球

判断对 python 3 支持的要求

python total_ordering:为什么使用 __lt__ 和 __eq__ 而不是 __le__?

在数据类中创建类变量的正确方法

如何在多核上运行 Keras?

Asyncio RuntimeError:事件循环已关闭

python setup.py egg_info mysqlclient

为什么 TensorFlow 的 `tf.data` 包会减慢我的代码速度?

带有数千个逗号刻度标签的 MatPlotLib 美元符号

Python 无法处理以 0 开头的数字字符串.为什么?