[轉貼]Google 為什麼能在 0.15 秒找到數十萬筆資料?認識搜尋霸主的核心技術

http://techorange.com/2013/05/07/meet-google-search-engines-technique/

 

當你在瀏覽器上輸入想要搜尋的字串時,Google 會檢視數十億個網頁,並依據索引值從中找出內容相符合的網頁,再依據相關的規則列出先後次序,而搜尋引擎會將結果以最快的時間回傳。

但是,網路上的資料量不但龐大,而且內容隨時都在變化,甚至同一個網頁的內容都會一天數變,因此,Google 就必須時時進行更新的動作,這個動作叫「爬行」(Crawling),而執行爬行動作的程式一般俗稱「爬蟲」(Crawler)或「網路蜘蛛」 (Spider),除了搜尋引擎之外,常見的應用還有比價系統,像是 FindPrice、背包客棧國際訂房中心比價等都是。

而 Google 之所以能成為其中的霸主,當然是有其過人之處。本篇文章就跟各位讀者簡單地分享一下 Google 所開發的三個核心技術:GFS、BigTable 與 MapReduce 演算法。 Continue reading [轉貼]Google 為什麼能在 0.15 秒找到數十萬筆資料?認識搜尋霸主的核心技術

[轉貼]Google 大神在 Big Data 應用上的技術與論文介紹,好神!

http://techorange.com/2013/05/14/big-data-beyond-mapreduce/

 

目前 Big Data 的相關應用有不少都是從 MapReduce 衍生而出的,但,若把焦點移到即時資料(Real-Time Data)的需求上時就會發現它的不足之處。

因此,本篇文章將與各位讀者分享,從 Google 發佈 GFS、Big Data 與 MapReduce 這些技術開始,到這些技術發展的現況與其所遭遇到的瓶頸,以及 Google 為了解決這些問題提出了哪些因應的技術。

  • MapReduce,GFS 與 Bigtable,帶動了 Big Data 應用技術的發展

Google 在 2003 年發表了第一篇論文 〈The Google File System〉。 文中敘述,GFS(Google File System)是一個分散式檔案系統,由數百個叢集(Cluster)所組成。簡單來說,儲存在 GFS 的檔案會被切割成  64 MB 左右的資料塊(Chunk),其利用重複的方式(Redundant Fashion)儲存在叢集中。 Continue reading [轉貼]Google 大神在 Big Data 應用上的技術與論文介紹,好神!

[轉貼]Big Data 時代,我們需要有超越 Hadoop 和 MapReduce 的殺手級技術

http://techorange.com/2013/05/02/beyond-hadoop-next-generation-big-data-architectures/

 

過去 25 年來,位居主流地位的關聯式資料庫(Relational Databases),在雲端計算與 Big Data 的發展中突顯了其不足之處,所以在最近幾年受到了「NoSQL」發展的挑釁與威脅。

像 Facebook、Google、Twitter 等大型網路企業,為了解決大量的資料存取問題,紛紛捨棄了關聯式資料庫技術,改以其它的相關技術,如「NoSQL」或是「Not Only SQL」等技術,以提升處理資料的效能與擴充的彈性。

而在此變遷中,Hadoop 逐漸成為一個關鍵的重要角色。Hadoop 是 Apache 軟體基金會所發展的雲端計算技術,使用 Java 撰寫並免費開放原始碼,優點在於有良好的擴充性,程式部署快速等,同時能有效地分散系統的負荷。 Continue reading [轉貼]Big Data 時代,我們需要有超越 Hadoop 和 MapReduce 的殺手級技術

[轉貼]Hadoop 不是萬能,破除七大迷思讓你做好 Big Data/Cloud Analysis

http://techorange.com/2013/06/04/7-myths-on-big-data-avoiding-bad-hadoop-and-cloud-analytics-decisions/

Hadoop 是 Apache 軟體基金會(Apache Software Foundation)因應 Cloud Computing 與 Big Data 發展所開發出來的技術,Hadoop 使用 Java 撰寫,並免費開放原始碼,在此背景之下,就足以讓 Hadoop 在資訊技術發展史上占有一席之地。

像 Yahoo 就利用 Hadoop Framework 的技術,建立網頁索引資料庫的計算,同時使用 1 萬個 Linux 平台的處理器核心,處理 1 兆個網頁連結,從 4PB 的資料,運算得出 300TB 的索引數據。

然而,盛名之下必有所累 -- 關於 Hadoop 的應用迷思也隨之而起。而這些迷思可能會導致企業的資訊部門決策者一廂情願/過於樂觀地制定相關決策。 Continue reading [轉貼]Hadoop 不是萬能,破除七大迷思讓你做好 Big Data/Cloud Analysis

[轉貼]最新2.0版HDMI正式開放授權 頻寬最高18Gbps

產業組織 HDMI論壇在2013年9月4日正式發表最新版 HDMI 2.0 規格,新版規格能向下相容舊版的 HDMI 規格,頻寬提升至 18Gbps ,並添加許多增強功能,以支援市場對提升消費者影音體驗的持續需求。

新的HDMI 2.0功能包括:支援 4K@50/60 (2160p)解析度,提供多維式身歷其境的音訊體驗,最多可達 32 個音訊通道,音訊取樣率最高可達 1536kHz;支援雙顯示,能在同一個螢幕上同步遞送雙視訊串流給多位使用者,支援同步遞送多串流音訊給多位使用者(最多4人 )。

HDMI 2.0亦支援21:9劇院級廣角視訊,以及可透過單一搖控器控制多款HDMI裝置的CEC擴充功能;此外「動態自動對嘴同步(Lip-Sync)」技術,則能避免因視訊處理時間差異而導致的影音時間延遲問題,在無需使用者介入的模式下以動態方式同步影音串流。

20130918_HDMI_NT22P1
HDMI新舊規格比較

代理HDMI論壇負責HDMI技術授權業務的HDMI Licensing總裁 Steve Venuti 表示,全新的HDMI 2.0功能採用現有纜線、連接器插座/接頭就可支援,高速纜線(Category 2)纜線即可支援最大18Gbps的HDMI 2.0頻寬;能以原有纜線支援新版功能的主要原因,是新規格採用新的信令技術,提高了訊號的傳輸效率。

20130918_HDMI_NT22P2
HDMI 2.0新增規格

Venuti指出,HDMI 2.0版自即日起可開放授權給HDMI裝置開發廠商,無須支付額外年費或使用費(royalty),僅須就現有的HDMI開發廠商協議簽署一份附加條款。而根據以往規格演進歷史估算,第一批採用HDMI 2.0的終端產品最快在3~6個月內就會問世;他預期在2014年初的國際消費性電子展(CES)上,就可看到廠商展示一系列相關產品。

特別來台宣傳新版HDMI規格的Venuti也歡迎更多廠商加入HDMI 論壇;他表示,HDMI原先是由HDMI聯盟7家創始會員所訂定,在2009年6月發表1.4b版規格後,創始成員認為需要有更多產業界的力量參與該規格的開發,於是在2011年10月又成立了HDMI論壇。

該論壇為非營利組織,目前成員有88名,涵蓋消費性電子產品、個人電腦、測試設備、纜線與半導體等供應商;旗下有技術與行銷兩大工作團隊,由11名成員組成的董事會負責管理。Venuti表示,只要繳交會員年費,任何組織機構皆可加入HDMI論壇,無須為現有HDMI開發廠商,論壇鼓勵更多產業界人員投入規格開發,為規格打造健全、互通的生態系統。

http://www.eettaiwan.com/ART_8800689911_480702_NT_ed9dee59.HTM