空大。大數據概論,第一次作業(113.11.9)

1. 何謂大數據的 4V 特性呢? 40 分) 

答:

(1)巨量性 Volume 存放數據量超過 PB

數據儲存量呈爆炸性成長,以 PBPetabyte 1024TB ~ ZBZettabyte 1024EB 為儲存單位。從客戶端(例如 WebApp 或感測器等)接收的資料量龐大,可能會有成千上萬的用戶同時進行訪問和操作,而且隨著互聯網的普及與應用,數據的成長無可限量。

(2)即時性 Velocity —數據擷取時間不到一秒

數據是即時變動與流動的,在數據串流的環境下,產出的速度很快, 數據能被擷取而且被進一步應用的時間,甚至連一秒都不到,其反應的時間僅短短幾秒至百萬分之一秒。

(3)多樣性 Variety 數據庫管理人員只處理了 20% 的結構化數據

以前數據庫管理人員,將大多數時間花在處理僅 20% 格式整齊的結構化數據資料;現今資料的種類繁雜,除了結構化的資料,其餘 80% 以上的數據來自於社交網路、物聯網或從感測器收集等,屬於半結構化、非結構化、純文字或多媒體的資料,非常多樣。

(4)不確定性 Veracity 或價值 Value 全球有 80% 數據不可靠

過去企業是最主要的數據來源,而企業通常會仔細查核內部數據,故數據的可靠度高。自 2010 年以來,在網路通訊、社群網站和感測器的技術蓬勃發展下,不完整的、不可靠的數據越來越多,甚至有分析師預估 2015 年時,在全球蒐集的所有資訊中,因為假身分、發表假言論或任意轉貼網路謠言,將有超過 80% 屬於不確定可靠與否的數據。

2. 請說明大數據的應用流程? (40 )

答:

(1)採集:指利用多個資料庫來接受發自客戶端(例如 Web App或感測器形式等)的數據,且用戶可通過這些資料庫來進行簡單的查詢和處理工作。例如電子商務會使用 My SQL Oracle 來儲存每一筆事務數據,另外,Redis Mongo DB 也常用於數據的採集。

在採集過程中,其主要特點和挑戰是資料爆量,因為可能同時會有成千上萬的用戶來進行訪問和操作,例如火車的售票系統網站或是遇到雙11購物節的購物網站淘寶等,它們併發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐,而且在這些資料庫之間進行負載均衡和分片是需要深入的思考和設計。

(2)導入、預處理:為了要對大數據進行有效分析,即便採集端本身有很多資料庫,還是應該將這些來自前端的數據導入到一個集中的大型分散式資料庫,或者分散式存儲集群,且可在導入基礎上做一些簡單的清洗和預處理工作。也有用戶會在導入時使用 Twitter Storm 來對數據進行流式計算,以滿足部份業務的實時計算需求。

此過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。

(3)統計、分析:主要利用分散式資料庫,或是分散式計算集群來對儲存於其內的海量數據進行普通的分析和分類彙總等,以滿足大多數常見的分析需求。此時,一些實時性需求會用到美國易信安公司的 Green PlumOracle Exadata,以及基於 My SQL 的列式存儲 Infobright 等,而一些批處理,或基於半結構化數據的需求可使用 Hadoop

這部分的主要特點和挑戰為分析涉及的數據量大,特別是輸入與輸出時會占用極大的記憶體空間,也會耗用大量的 CPU  運算 Power 和時間。

(4)挖掘:與統計、分析過程不同的是數據挖掘一般沒有預先設定的主題,主要是在現有數據上,進行基於各種演算法的計算,而達到預測的效果,從而實現數據分析的需求。

這部分的主要特點和挑戰是用於挖掘的演算法很複雜,且計算涉及的數據量和計算量都很大。

3. 請上網收集 2 則有關報導大數據應用在某個行業或領域的網頁內 容,並請複製在作業裡面,並註明網頁出處,如網址。(20 分)

答:

第一篇

台積電運用大資料分析 創造半導體製程技術優勢 | iThome   

台積電運用大資料分析 創造半導體製程技術優勢

晶圓製程從20奈米縮小到10奈米,電路線的寬度就得精準到做進一根頭髮的1萬分之一,到底台積電如何面對這樣艱鉅的新世代先進製程挑戰?

/余至浩 | 2014-11-20發表

一個隨時身處在奈米世界競爭當中,每天所要處理的都是如何在一根頭髮不到線寬中,將所有電路元件通通塞進晶圓裡頭,過程中還得經過千道繁瑣的製程過程,監測生產機臺每秒產出的百萬筆製程資料,以提升良率,這也是臺灣半導體龍頭大廠台積電,在不斷朝向新世代先進製程的物理極限,所要面對的大資料挑戰。

然而,台積電不是這幾年才開始投入大資料分析,早在2000年,廠內就開始在蒐集機臺製程資料,並嘗試利用這些蒐集而來的資料進行分析,只是當時受到技術及條件限制,以致於在分析資料上,光是跑一次分析就得要花上一個星期才分析出結果,不只相當耗費時間,也難以拿來做大量分析應用,一直到2011年之後,透過運用大資料分析技術,情況才獲得明顯改善。

台積電300 mm Fabs技術委員會處長黃裕峰以射箭打比方,以前在40奈米製程時代,因為靶夠大,隨便射一隻箭都可以打中靶心,但是進入到20奈米先進製程後,不只是靶變小了,所有射出來的箭還要正中靶心,這件事情就變得不太容易。

到底半導體製程技術有多困難,若以一根頭髮當例子,黃裕峰也說,其寬度大約是在10萬個奈米左右,當拿來與20奈米先進製程技術相比時,其電路線的寬度大約只有一根頭髮的5千分之一,而要在這樣大小範圍內做進所有的電路元件,隨之而來的挑戰難度也非常高。

一個台積電12吋晶圓廠,每秒約產出100萬筆資料

然而,台積電面臨的不只有製程技術上的挑戰,還有因為開發新製程技術而不斷購入的機臺設備,這些新式機臺都配備了更多感測器,能蒐集到更多的製程資料,黃裕峰表示,過去廠內一個機臺大約有200500個感測器,但到了2014年,平均一個機臺已經有5001,000個感應器,一些更先進的機臺,甚至配備數千個感測器,例如,一臺半導體製程使用的黃光浸潤式機臺,造價逾30億元,配備的感應器數量更多達7,000個。

黃裕峰指出,從40奈米製程進入到28奈米製程,製程資料量成長了4倍,而進入到20奈米製程後,資料量更是大幅提升到原先的24倍,而現有台積電一個超大型晶圓廠(GigaFab),平均每月可以生產10萬~20萬片的晶圓,若一個12吋(300mm)晶圓廠來計算,每秒可以產出約100萬筆的資料。

先進製程的開發都是挑戰物理極限

台積電卓越製造中心總主持人暨清華大學講座教授簡禎富表示,以台積電來說,每一個先進製程技術的開發,都是在挑戰它的物理極限,走的都是以前沒有走過的路,也因為是過去沒走過的地方,因此有部分傳統或原來知識可能就會受到局限。

像是原來20奈米製程技術,現在要縮小為10奈米,那從20奈米縮為10奈米過程中,就會出現很多原本沒有的限制,比如說20奈米原來的誤差可能為2奈米,只占10%,但製程當縮小到10奈米時,若誤差範圍還是維持在2奈米,就會發生問題。

簡禎富也指出,大資料分析對半導體發展先進製程的重要性,也是因為一直都在探索,既然是在探索,過去知識就不能百分之百完全套用,而是得靠著在探索過程中不斷累積大量資料,從推衍中不斷歸納找到潛在有用的樣型(Pattern),才有可能繼續走下去,這也就是一個互補概念。「很多時候,大資料分析並不是要直接挖到寶,反而是要用來縮小範圍。」簡禎富說。

大資料分析也提供另一種歸納方式,簡禎富也解釋,就像是針對歸納的方法,如果是資料量很小,那麼可以用統計方法歸納,然而,半導體業隨時面對的都是新製程挑戰,遇到都是大量資料及複雜製程過程。

以晶圓生產機臺來說,通常會歷經一千道製程程序,中間經過製程站點很多,而且會產生回流,回流過程還不一定走同樣的機臺,因此容易造成很多雜訊發生,甚至過程中也會出現複雜的交互作用,進而產生共線性問題,因此,有時在找問題的時候,並不一定能直接找到真正的嫌疑犯。

每片晶圓完成需歷經千道製程,監測百萬筆資料

不同於其他產業運用大資料分析,黃裕峰表示,半導體業運用大資料分析有其複雜度的挑戰,舉例來說,目前台積電每產出一片晶圓,通常需經過5001,000道的製程步驟,約可產出百萬筆的製程資料,而每一個前後製程的機臺間都環環相扣,有很重要的關聯性,甚至每個機臺都可視為一個群組,有各自的特性。

即便是相同的機臺組群,機臺的效能也不見得一樣,因此,如何透過分析資料挖掘出複雜製程中的變異資料,找出最關鍵的控制因子,達到所要的生產良率和品質,就有其一定難度。

甚至,如果更往外擴及像是供應商提供的原料,也同樣可能造成變異的情況發生。黃裕峰指出,過去就曾發生過負責提供空白晶圓片(Raw Wafer)的供應廠商,因為製程上的些微差異,導致晶片實際生產後,在晶圓電性測試(WAT)跟晶圓良率(CP)產生很大的變異。

因此如何透過機臺製程資料,從這些問題中找出最關鍵的控制因子,拿來運用在半導體製程生產管理上,提供如生產良率、製程品質,甚至是節能方面改善的解決方案,也成為半導體大資料分析很重要的範疇。

目前台積電在半導體大資料分析上,主要包含了五個大資料應用範疇,分別是針對了機臺控制(Tool Control)、機臺健康(Tool Healthy)、機臺生產力(Tool Productivity)、品質控管(Quality Control),以及人員生產力(People Productivity)上的大資料分析應用。

運用大資料分析,機臺匹配時間縮短至1個月

大資料分析運用在機臺控制時,主要是要找出機臺變異以提高晶圓良率,其中又以機臺匹配最為重要。黃裕峰說,以往台積電的機臺匹配作法是先在產線上生產一批產品,等到最後產生晶圓電性測試跟晶圓良率後,再來比較此機臺是否跟之前的機臺一樣,如果相同就放行,不一樣才扣留。

但通常半導體生產周期很長,從投入到產出往往需12個月時間,要是機臺有問題也得要3個月後才能知道,因此就能運用大資料分析來縮短機臺匹配放行的時間,台積電也表示,透過這種大資料分析應用,在機臺匹配上至少可省下一半的時間。

而在機臺健康診斷上,台積電也希望透過感應器的資料來預測機臺健康狀況。由於半導體製造昂貴,因此每一個製程流程都需要去監控,而監測都需要控片(Control Wafer),黃裕峰表示,光是每月廠內都裝設有十多萬片的控片,來驗證機臺是否發生問題或產生變異,然而,這樣的作法不僅浪費金錢且不具時效性,也是半導體生產中很大一筆成本開銷。

因此在大資料分析應用上,黃裕峰表示,台積電也嘗試透過蒐集最底層的感測器資料,經過大資料分析來達到預測機臺健康程度。「預測的技術重要,就是希望提前看到問題,找到關鍵因子,然後去控制它。」黃裕峰說。

除了機臺匹配及健康診斷外,台積電後來也將大資料分析拿來使用在機臺生產力上,透過找到大資料相關的關鍵設定或因子,用來改善及提高機臺的生產力,像是藉由更高的故障排除資料來提升機臺設備效能,這也是台積電從大資料分析找到的另一個應用發想。

目前實際套用這方法後,台積電表示,已經可以提升晶圓廠機臺的生產力,生產效能最多提高到1成,也讓以往難以提升產能的舊世代晶圓廠,現在也有機會運用大資料來達到產能提升的效果。

善用大資料分析,找出影響客戶產品規格的關鍵因子

而在品質控管上,由於半導體廠主要業務都是晶圓代工,因此擁有非常多客戶,而每個客戶的產品特性跟規格都不太一樣,如何在製程過程或機臺管控上,運用大資料分析找出影響客戶產品規格或特性的重要因子,進而提前去控制來滿足客戶需求,這也是大資料分析應用很重要的部分。

黃裕峰也說,以台積電而言,一個晶圓廠內設有將近千臺以上的機臺,負責生產線任務,而如何確保這些機臺的製程,提供給客戶的產品規格都是一模一樣,就關係到如何控制機臺參數與製程的能力,甚至針對客戶產品特質,在生產過程找到關鍵製程機臺加以去控制,這些都已經是有實際運用,而不只是一個發想而已。

除了生產製程上的應用外,黃裕峰指出,目前台積電內部也有一些實際將大資料運用在人員生產力的作法,像是找出是否有更好的系統,可以改善廠內人員的工作效率,來減少繁瑣工作、簡化流程,以及加入更完整的IT系統支援。

大資料分析也對於半導體業將帶來更大機會,可以發展更精確的模型(Model),透過這些結合數學統計方法論的分析模型,進行資料採礦,針對不同的需求情境找到問題。黃裕峰表示,目前,台積電工廠端已經逐步發展有超過數十種以上的模型投入運用,像是良率改善,以及後來的機臺匹配與健康診斷等,都是隨著需求增加而逐步演進而成。

半導體結合大資料分析,加快產品投入市場應用時間

此外,簡禎富也認為,在高度競爭的半體導業,半導體結合大資料分析也可提供製程更好的效率,代表能更快找到問題,然後應用在產品上。即使兩家半導體廠最後都能做出百分之百的產品,但比較快做到的一方和較慢做到的一方,這中間就會有一個差距,畢竟市場價格是隨時間在下降,越快做到的半導體廠,其產品價值也就越高。

另一個帶來的效果,簡禎富說,有些時候大資料也會解決半導體製程上的盲點,即便是半導體專家或工程師,在尋找問題時也會遇到專業上的盲點,而透過大資料分析則是協助專家們找到專業的盲點,自然而然就可能會產生額外的效益。

從尋找製程變異,進展到提前預測變異

除了良率提升外,半導體產業現在也開始逐漸將大資料分析,提升到預測部分,甚至是朝向能自我診斷與自動修復的目標前進。黃裕峰表示,以台積電來說,過去廠內大多將大資料分析運用在故障排除上,像是在發生晶圓變異時,用來查出變異原因或是底層資料的問題。

但現在,台積電也開始將大資料分析提升到預測分析(Predictive Analytics)或機器學習(Machine Learning)應用,例如,提前預測機臺的變異或對可能產生異常的機臺提前修復,甚至是透過與自動控制系統或工具結合,朝向自我診斷(Self-Diagnostis)及自動控制(Automatic Control)的目標邁進。黃裕峰也說,這是台積電朝向智慧工廠發展的一個大方向,而目前已經有部分做到,其他仍在努力當中。

台積電導入Hadoop平臺,不到2小時就分析完百萬筆資料

目前,台積電使用HBase資料庫作為大資料分析底層的資料基礎設施,並導入平行處理系統的Hadoop平臺,透過SPSSSASR語言等統計分析工具,將所有機臺製程資料,透過資料前處理、過濾、特徵萃取等步驟,拿來進行各種資料採礦,找到關鍵因子,最後將分析結果經由資料視覺化工具,將結果呈現出來。

台積電300 mm Fabs技術委員會暨工程自動化整合部經理王天文說,目前在台積電的大資料應用,要找到一個答案,不是只套用一個模型,而是可能要套用上幾百個模型才可能找到,甚至這些模型裡還包含了各別過濾條件,再從這麼多的模型中找到最正確的答案,而比起傳統依序找問題的方法,利用平行運算來協助,更能發揮更大的成效。

而在導入Hadoop技術後,也大幅縮短台積電的資料分析時間,台積電表示,過去將這些機臺取得資料拿來執行一個模型分析,可能要花35天時間才能得到結果,但現在幾百萬筆的資料,約只要12小時就能取得分析結果,也因為有了大資料技術,才能讓台積電拿來大量分析應用,更快速找到製程問題加以解決。

為了建立更多統計分析模型來改善製程或良率的問題,目前台積電約有數十位成員投入大資料分析的開發,這些資料科學家,成員背景多來自不同的科系,像是有統計、化工、材料、心理、經濟等碩博士,而研究背景除了半導體產業也涵蓋了癌症分析、農業病蟲害分析、財務分析及花卉交易分析等,研究領域可以說是五花八門。黃裕峰說,儘管是來自不同領域,但過去他們所學的內容其實都跟資料採礦息息相關,只是運用的領域不一樣。

王天文也認為,台積電現在所碰到的挑戰非常艱鉅,例如像是10奈米製程技術的挑戰,此外也要面對與全世界數一數二半導體大廠商像英特爾和三星的競爭,所以如何運用大資料分析,開發出一個好的製程方法,甚至領先全球,都是未來仍要持續努力的方向。

半導體運用大資料的熱潮,最近幾年在臺灣已成為趨勢,但黃裕峰認為,現在只是做到起步,而不是已經做到多麼成熟,這樣的情況在國外也仍然持續進行中,至於最終可以替半導體產業帶來多大的效用,這就要看大資料分析技術能發揮到多大效用。

40奈米進入到20奈米製程後,資料量大幅提升了24倍,而現有台積電一個超大型晶圓廠(GigaFab),平均每月可以生產1020萬片的晶圓,若一個12吋晶圓廠來計算,每秒可以產出約100萬筆的資料。——台積電300 mm Fabs技術委員會處長黃裕峰

第二篇

臺北市大數據應用實例大公開 | iThome  

臺北市大數據應用實例大公開

COVID-19疫情影響下,不少縣市停辦2021年跨年活動,而臺北市能照常舉行的背後支持單位之一,便是大數據中心,負責協助綜合各方面資訊,建置2021跨年實聯制儀表板

/蘇文彬 | 2021-03-17發表

大數據應用 1   臺北市2021跨年活動人潮管制

靠實聯制儀表板管制4萬人進場

2021年臺北市跨年活動配合防疫需要,嚴格管控人數上限,並全面實施實聯(名)制入場,透過實聯制儀表板快速掌握進場情形。

2020年的最後一天,不少民眾都會參加各地跨年活動慶祝,但在COVID-19疫情影響之下,為降低群聚感染風險,不少縣市停辦2021年跨年活動,臺北市照常舉行,成為國內少數仍舉辦跨年活動的縣市。

為了避免群聚感染風險,除了要求民眾進場要消毒、戴口罩,北市還祭出人數總量管制,限制現場人數上限為4萬人,並且配合防疫需要,活動現場控管出入口,並全面以實聯(名)制進場,包括使用身分證掃描進場,或是以臺北通AppMyCode隨行碼進場。

為讓臺北市跨年決策小組能夠監控現場人數控制,臺北市大數據中心協助綜合各方面資訊,建置跨年實聯制儀表板。通過這個儀表板,能夠看到當天入場總人數,以及民眾是從哪個出入口進出,使用哪種實聯(名)制方式進場居多,入場民眾的性別比例等等。

為了即時掌握現場人數狀況,以MyCode隨行碼為例,由於是資訊局建置的系統,因此每有一位民眾使用隨行碼入場,系統就會回傳一筆資料給實聯制資料庫,同時傳送一筆不含個資的統計資料到跨年實聯制儀表板,讓決策小組掌握即時的入場人數。

值得注意的是,除了實聯名制之外,這次活動也和電信業者合作以POC概念驗證,利用手機與基地臺間的通訊技術,推估當天活動現場週邊的人數,供跨年決策小組參考,電信業者推估人數也同樣整合到儀表板,以讓活動決策小組參考。

 大數據應用 2   臺北市小黃招呼站設置優化

找出百大上車熱點調度近3萬輛小黃

透過分析叫車業者一周的資料,結合時間前後與空間分布,可以掌握臺北市計程車招呼的熱門路段。

國內擁有最多計程車的是哪個縣市? 沒錯,就是臺北市,目前在臺北約2.8萬輛計程車,這麼多的計程車雖為民眾搭車帶來便利性,但空車繞行、臨時停車造成交通壅塞或導致交通事件發生。因此,市長柯文哲要求交通局在一個月內,提出新洞見及對策,交通局因此找上大數據中心團隊,著手研究如何優化臺北市計程車招呼站的設置。

交通局向叫車業者取得一周資料,包括電招、App叫車、路招等,以了解民眾上車及下車需求,以地圖套疊圖資,能看到民眾在臺北市各個路段的上車、下車分布情形,如什麼時段、什麼路段,使用電招或是App叫車、路邊招車等方式上車,觀察民眾上車的招呼熱點或熱區。

從數據來看,計程車電招較分散,而路招則以大馬路為主。另外,結合時間與空間,大安區和信義區都是計程車招呼的熱區,但從時間軸來看,兩區的招車熱區時段大不同,可能因信義區夜生活較多,信義區白天和晚上的搭車行為明顯不同。

大數據中心從資料中,列出北市計程車招呼熱區的百大熱點路段,每個路段在當周有多少次上車行為,供交通局設計程車招呼站參考,交通局目前派員現場勘察,依當地路況、路寬是否允許,決定是否設置計程車招呼站。

這項政策研究衍生相關議題,如何疏解內湖地區交通尖峰時刻的壅塞情形。這項研究不只是交通局,也涵蓋產業局、都發局所提供的資料,為降低計程車空車在尖峰時段前往內湖載客,大數據中心和交通局討論,利用計程車可附近公有停車場免費停車一小時,將停車場空位資訊提供給叫車業者,吸引計程車空車提前一小時至內湖,減輕內湖交通壅塞的問題。

 大數據應用 3   雙北300條公車路線優化

每天約有300條公車路線、3,500輛公車往返臺北市與新北市,每天約130萬人次搭乘公車在雙北市移動,如何掌握民眾乘車需求,優化公車路線安排,對臺北與新北市政府而言,都是大眾公共運輸上難解的題。

為了更精準的掌握民眾的乘車行為,雙北市、公車業者歷經多次協商終於2018年達成共識,2019年他們開始鼓勵民眾上下公車都要刷票卡,蒐集完整的公車搭乘數據,才能取代過去只有片面資料,需從其他資料比對、再經過推算,才能對民眾乘車行為有粗略的了解,但還無法精確掌握民眾的乘車行為樣貌。經過上下車動線、上下刷卡獎勵、更改票證感應機後,才成功讓大多數民眾習慣上下車刷卡這個新制度,同時掌握9成的乘車數據。

臺北市公運處利用乘車的OD(起始站點)、車上人數變化、旅次鏈查詢等資料,找出民眾在哪裡上車較多,到哪裡下車居多,作為調整行車路線的參考,例如民眾通勤以某個路段為主,可調整該路線公車的路線,也能縮減乘車時間,而較冷門的公車路線,可改採預約乘車的方式,避免運輸資源的浪費。針對車上人數較少的路線,改以小巴載運,讓中巴能夠挪到其他運量較高的路線使用。

以數據分析為依據,調整公車營運路線,不論是新增、裁撤或是變更等,都能有數據佐證支持,或多或少降低民眾反彈的聲音。未來若能從公車取得影像、行車等其他數據,進一步擴大數據的應用,例如以AI辨識路上其他車輛違停,或者是辨識駕駛是否有不良駕駛行為等等。

 

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 hinlin 的頭像
    hinlin

    媽媽的另一扇窗

    hinlin 發表在 痞客邦 留言(0) 人氣()