MongoDB遊標超時問題的4種解決方法

這篇文章主要給大家介紹了關於MongoDB遊標超時問題的4種解決方法,文中通過示例代碼介紹的非常詳細,對大家學習或者使用MongoDB具有一定的參考學習價值,需要的朋友們下面來一起學習學習吧

當我們使用Python從MongoDB裏面讀取數據時,可能會這樣寫代碼:

import pymongo

handler = pymongo.MongoClient().db.col

for row in handler.find():
 parse_data(row)

短短4行代碼,讀取MongoDB裏面的每一行數據,然後傳入parse_data做處理。處理完成以後再讀取下一行。邏輯清晰而簡單,能有什麼問題?只要parse_data(row)不報錯,這一段代碼就完美無缺。

但事實並非這樣。

你的代碼可能會在for row in handler.find()這一行報錯。它的原因,說來話長。

要解釋這個問題,我們首先就需要知道,handler.find()返回的並不是數據庫裏面的數據,而是一個遊標(cursor)對象。如下圖所示:

只有當你使用for循環開始迭代它的時候,遊標纔會真正去數據庫裏面讀取數據。

但是,如果每一次循環都連接數據庫,那麼網絡連接會浪費大量時間。

所以pymongo會一次性獲取100行,for row in handler.find()循環第一次的時候,它會連上MongoDB,讀取一百條數據,緩存到內存中。於是第2-100次循環,數據都是直接從內存裏面獲取,不會再連接數據庫。

當循環進行到底101次的時候,再一次連接數據庫,再讀取第101-200行內容……

這個邏輯非常有效地降低了網絡I/O耗時。

但是,MongoDB默認遊標的超時時間是10分鐘。10分鐘之內,必需再次連接MongoDB讀取內容刷新遊標時間,否則,就會導

致遊標超時報錯:

pymongo.errors.CursorNotFound: cursor id 211526444773 not found

如下圖所示:

所以,回到最開始的代碼中來,如果parse_data每次執行的時間超過6秒鐘,那麼它執行100次的時間就會超過10分鐘。此時,當程序想讀取第101行數據的時候,程序就會報錯。

爲了解決這個問題,我們有4種辦法:

  1. 修改MongoDB的配置,延長遊標超時時間,並重啓MongoDB。由於生產環境的MongoDB不能隨便重啓,所以這個方案雖然有用,但是排除。
  2. 一次性把數據全部讀取下來,再做處理:
all_data = [row for row in handler.find()]

for row in all_data:
 parse(row)

這種方案的弊端也很明顯,如果數據量非常大,你不一定能全部放到內存裏面。即使能夠全部放到內存中,但是列表推導式遍歷了所有數據,緊接着for循環又遍歷一次,浪費時間。

  3.讓遊標每次返回的數據小於100條,這樣消費完這一批數據的時間就會小於10分鐘:

# 每次連接數據庫,只返回50行數據
for row in handler.find().batch_size(50): 
 parse_data(row)

但這種方案會增加數據庫的連接次數,從而增加I/O耗時。

  4.讓遊標永不超時。通過設定參數no_cursor_timeout=True,讓遊標永不超時:

cursor = handler.find(no_cursor_timeout=True)
for row in cursor:
 parse_data(row)
cursor.close() # 一定要手動關閉遊標

然而這個操作非常危險,因爲如果你的Python程序因爲某種原因意外停止了,這個遊標就再也無法關閉了!除非重啓MongoDB,否則這些遊標會一直留在MongoDB上,佔用資源。

當然可能有人會說,使用try...except把讀取數據的地方包住,只要拋出了異常,在處理異常的時候關閉遊標即可:

cursor = handler.find(no_cursor_timeout=True)
try:
 for row in cursor:
 parse_data(row)
except Exception:
 parse_exception()
finally:
 cursor.close() # 一定要手動關閉遊標

其中finally裏面的代碼,無論有沒有異常,都會執行。

但這樣寫會讓代碼非常難看。爲了解決這個問題,我們可以使用遊標的上下文管理器:

with handler.find(no_cursor_timeout=True) as cursor:
 for row in cursor:
  parse_data(row)

只要程序退出了with的縮進,遊標自動就會關閉。如果程序中途報錯,遊標也會關閉。

它的原理可以用下面兩段代碼來解釋:

class Test:
 def __init__(self):
  self.x = 1

 def echo(self):
  print(self.x)

 def __enter__(self):
  print('進入上下文')
  return self

 def __exit__(self, *args):
  print('退出上下文')
  
with Test() as t:
 t.echo()
print('退出縮進')

運行效果如下圖所示:

接下來在with的縮進裏面人爲製造異常:

class Test:
 def __init__(self):
  self.x = 1

 def echo(self):
  print(self.x)

 def __enter__(self):
  print('進入上下文')
  return self

 def __exit__(self, *args):
  print('退出上下文')
  
with Test() as t:
 t.echo()
 1 + 'a' # 這裏一定會報錯
print('退出縮進')

運行效果如下圖所示:

無論在with的縮進裏面發生了什麼,Test這個類中的__exit__裏面的代碼始終都會運行。

我們來看看pymongo的遊標對象裏面,__exit__是怎麼寫的,如下圖所示:

可以看到,這裏正是關閉遊標的操作。

因此,如果我們使用上下文管理器,就可以放心大膽地使用no_cursor_timeout=True參數了。

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對神馬文庫的支持。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章