第220章 大資料處理關鍵操作
燃面不燃提示您:看後求收藏(第220章 大資料處理關鍵操作,科技革命,從1984開始,燃面不燃,地主小說網),接著再看更方便。
請關閉瀏覽器的閱讀/暢讀/小說模式並且關閉廣告遮蔽過濾功能,避免出現內容無法顯示或者段落錯亂。
“當然可以,你拿去看吧,有什麼意見儘管跟我說。” 李衛臉上掛著溫和的笑容,語氣客氣地說道。
秦奕接過論文,迫不及待地開始快速瀏覽其中的關鍵論述——這篇論文主要闡述了並行程式中並行、匯聚、通訊、對映及歸納等機制的語義。
看著看著,他的眼中閃過一絲驚喜,這裡面描述的不正是前世網際網路大資料處理框架 mApREdUcE 裡的基本操作嗎!
前世,搜尋引擎巨頭谷歌在 2004 年前後釋出了三篇奠定大資料處理基礎的論文 ——《the Google File System》《mapReduce: Simplified data processing on Large clusters》《bigtable: A distributed Storage System for Structured data》。
這三篇論文為大資料處理領域帶來了全新的思路和方法,宛如一把火,瞬間點燃了學術界和工業界對大規模資料處理技術的研究熱情,也有力推動了 hadoop 等開源專案的發展。
這些專案在之後的十幾年裡迅速成為了大資料基礎設施,對整個大資料、雲端計算甚至是後來的人工智慧行業都產生了深遠影響。
其中,《mapReduce》這篇論文裡使用的核心操作 map 和 Reduce,與李衛這篇論文中的對映和歸納兩個機制,本質上如出一轍。
秦奕不禁思索,原來早在這個時候,相關的核心操作就已經在並行程式領域得到應用了嗎?
或許當時撰寫那三篇論文的谷歌程式設計師正是從這些並行程式的論文中獲得了靈感。
當然,《mapReduce》論文不只是應用了這兩個關鍵操作,它還圍繞這兩個核心操作,精心設計了一套完整的系統架構和實現機制,涵蓋資料劃分、任務排程、容錯處理、資料 \/ 程式碼互定位等功能,確保在大規模叢集上能夠穩定、高效地執行。
秦奕接著又仔細看了看李衛論文裡的具體實驗內容,是關於 Ada 語言在一些單機程式中的處理。
“李衛同志,我有個疑惑。” 他抬起頭,目光看向李衛。
“說吧。” 李衛挑了挑眉,他剛才讓對方提意見不過是句客氣話,沒想到這個秦奕還真敢有想法。
“你這裡的並行程式,似乎只涉及單臺計算機的多處理器並行,沒有涉及多臺計算機的並行處理。” 秦奕認真地說道。
“多臺計算機的並行處理?” 李衛低聲重複著這個詞,隨後笑道,“這需要用到計算機網路了,是吧?”
秦奕連忙點頭,回答道:“對的。”
“我理解單臺計算機雖然具備低延遲通訊、易於管理和排程以及資料一致性維護簡單等優勢,但是它的處理器數量和記憶體容量等硬體資源有限。”
“一旦並行任務規模持續擴大,很快就會遭遇資源瓶頸,難以滿足大規模計算需求。如果想要進一步提升其效能,往往需要採用高階的多核處理器、大容量高速記憶體等硬體裝置,硬體成本高昂,且能耗也相對較高。”
“如果藉助計算機網路來實現程式的並行,那就可以透過增加計算機的數量,輕鬆擴充套件計算能力,理論上能夠滿足任意大規模的計算需求。”
李衛聽後,笑著反駁:“你可別把計算機網路說得太神了。計算機網路通訊開銷還是很大的,和單機通訊比起來,延遲成百上千倍,對於一些對通訊實時性要求極高的任務,這可是無法接受的。”
秦奕自然不會輕易放棄,他耐心解釋道:“您說得很有道理,這確實不適用於對實時性要求高的任務。”
“但我
本章未完,點選下一頁繼續閱讀。