Python3.x 为什么异步库比这个 IO 绑定操作的线程慢

发布于10月02日

我正在编写一个python程序，用于枚举网站的域名.例如，a.谷歌.com'.

首先，我使用threading模块来实现这一点:

import string
import time
import socket
import threading
from threading import Thread
from queue import Queue

'''
enumerate a site's domain name like this:
1-9 a-z + .google.com
1.google.com
2.google.com
.
.
1a.google.com
.
.
zz.google.com

'''

start = time.time()
def create_host(char):
    '''
    if char is '1-9a-z'
    create char like'1,2,3,...,zz'
    '''
    for i in char:
        yield i
    for i in create_host(char):
        if len(i)>1:
            return False
        for c in char:
            yield c + i


char = string.digits + string.ascii_lowercase
site = '.google.com'


def getaddr():
    while True:
        url = q.get()
        try:
            res = socket.getaddrinfo(url,80)
            print(url + ":" + res[0][4][0])
        except:
            pass
        q.task_done()

NUM=1000  #thread's num
q=Queue()

for i in range(NUM):
    t = Thread(target=getaddr)
    t.setDaemon(True)
    t.start()

for host in create_host(char):
    q.put(host+site)
q.join()

end = time.time()

print(end-start)

'''
used time:
9.448670148849487
'''

后来，我读了一本书，书中说在某些情况下，协同程序比线程更快.因此，我重写了代码，使用asyncio:

import asyncio
import string
import time


start = time.time()
def create_host(char):
    for i in char:
        yield i
    for i in create_host(char):
        if len(i)>1:
            return False
        for c in char:
            yield c + i


char = string.digits + string.ascii_lowercase
site = '.google.com'

@asyncio.coroutine
def getaddr(loop, url):
    try:
        res = yield from loop.getaddrinfo(url,80)
        print(url + ':' + res[0][4][0])
    except:
        pass

loop = asyncio.get_event_loop()
coroutines = asyncio.wait([getaddr(loop, i+site) for i in create_host(char)])
loop.run_until_complete(coroutines)

end = time.time()

print(end-start)


'''
time 
120.42313003540039
'''

为什么getaddrinfo的asyncio版这么慢？我是不是误用了协同程序？

def getaddrinfo(self, host, port, *, family=0, type=0, proto=0, flags=0): if self._debug: return self.run_in_executor(None, self._getaddrinfo_debug, host, port, family, type, proto, flags) else: return self.run_in_executor(None, socket.getaddrinfo, host, port, family, type, proto, flags)

import asyncio import string import time from concurrent.futures import ThreadPoolExecutor start = time.time() def create_host(char): for i in char: yield i for i in create_host(char): if len(i)>1: return False for c in char: yield c + i char = string.digits + string.ascii_lowercase site = '.google.com' @asyncio.coroutine def getaddr(loop, q): while True: url = yield from q.get() if not url: break try: res = yield from loop.getaddrinfo(url,80) except: pass @asyncio.coroutine def load_q(loop, q): for host in create_host(char): yield from q.put(host+site) for _ in range(NUM): yield from q.put(None) NUM = 1000 q = asyncio.Queue() loop = asyncio.get_event_loop() loop.set_default_executor(ThreadPoolExecutor(NUM)) coros = [asyncio.async(getaddr(loop, q)) for i in range(NUM)] loop.run_until_complete(load_q(loop, q)) loop.run_until_complete(asyncio.wait(coros)) end = time.time() print(end-start)

Python3.x 为什么异步库比这个 IO 绑定操作的线程慢

推荐答案

Python-3.x相关问答推荐

如何从Django连接到Neo4J s AuraDB(免费层)？'

只有在Chrome尚未打开的情况下，打开Chrome后，PySimpleGUI窗口才会崩溃

在特定条件下从 DataFrame 中提取特定组

删除列表中的第二个出现

如何根据索引子列表对元素列表进行分组或批处理？

ImportError：抓取数据后找不到 html5lib

将逗号分隔的字符串类型系列转换为整数列表 pandas

Pandas DataFrame：使用 Pandas 将 NaN 值替换为 3 行以上的平均值

Dask 多阶段资源设置导致 Failed to Serialize 错误

使用 python 正则表达式匹配日期

创建一个可旋转的 3D 地球

判断对 python 3 支持的要求

python total_ordering：为什么使用 lt 和 eq 而不是 le？

在数据类中创建类变量的正确方法

如何在多核上运行 Keras？

Asyncio RuntimeError：事件循环已关闭

python setup.py egg_info mysqlclient

为什么 TensorFlow 的 `tf.data` 包会减慢我的代码速度？

带有数千个逗号刻度标签的 MatPlotLib 美元符号

Python 无法处理以 0 开头的数字字符串.为什么？