[轉貼]Amazon 宣佈推出 Fire TV，是一款運行 Android 的影片串流加遊戲機上盒

Amazon 終於都推出了傳聞已久的機上盒了，不過這次這款機上盒竟不只可以看電視，還可以玩遊戲的。它運行的系統是 Android，並跟 Amazon 本有的生態系統連在一起。體積很小的它重點規格包括四核處理器、2GB RAM 和一系列的連接埠，包括 HDMI、光學音訊埠及乙太網埠。想了解多點就要繼續閱讀了。

Continue reading [轉貼]Amazon 宣佈推出 Fire TV，是一款運行 Android 的影片串流加遊戲機上盒

Cloudera [Web site link]

http://www.cloudera.com/content/cloudera/en/about/what-is-hadoop.html

What is Hadoop?

Make Big Data the Lifeblood of Your Enterprise

With data growing so rapidly and the unstructured variety accounting for 90% of it today, the time has come for you to re-evaluate your approach to data storage, management, and analytics.

Legacy systems, while fine for certain workloads, simply were not engineered with the needs of Big Data in mind, and are far too expensive for today’s largest data sets. Instead, these systems should now complement the use of Apache Hadoop – letting you optimize data management by putting the right Big Data workloads in the right systems.

In fact, the need for Hadoop is no longer a question — the only question now is how to take advantage of it best, and the enterprise-proven answer is: “with Cloudera.” Continue reading Cloudera [Web site link]

[轉貼] Intel 進軍Big Data, 入股Cloudera

英特爾上週宣布投資矽谷新創公司 Cloudera，最新資料披露，在這樁交易中，英特爾投資總額達7.4億美元，持股比重來到18%，一躍成為 Cloudera 的最大股東。

Cloudera成立於2008年，是一家 Big Data 分析服務公司，市值推估達 41 億美元。透過 Cloudera 提供的 Hadoop 分散式運算軟體，企業可大幅降低巨量資料分析的門檻。

除了英特爾之外，Cloudera 還自其他投資者募得1.6億美元，使得募資總額達9億美元。

華爾街日報報導，這是英特爾旗下數據中心集團迄今最大宗的投資案。Cloudera 財務長 Jim Frankola 表示，新募資金將用以加速擴展在歐洲、大陸與其它亞洲國家的業務。

[轉貼]雲端運算平台—Hadoop

http://www.cc.ntu.edu.tw/chinese/epaper/0011/20091220_1106.htm

作者：周秉誼 / 臺灣大學計算機及資訊網路中心作業管理組碩士後研究人員

雲端運算是資料中心因應網路上資訊暴增而提出的服務及管理思維，資訊服務提供者投入資源進行雲端運算的服務及架構開發，Google可說是最大量使用雲端運算的組織之一。Hadoop就是由Google雲端架構得到啟發而開始的開放原始碼計劃，目前有許多組織參與Hadoop的研究開發，並以Hadoop 做為雲端運算的平台。

前言
隨著網際網路 (Internet) 的發展，及web2.0概念被提出，網路使用者的行為也由單純的瀏覽轉變為創作與分享；另外，行動式的資訊設備也越來越多，為了方便分享及取用，使用者們把資料從個人的電腦中轉移到web服務提供者的資料中心 (Data Center)；而服務提供者為了提供更穩定更迅速的服務，也需要一個新的服務架構，將運算資源及儲存空間更有效率的利用，同時提供服務開發人員更便利的開發環境。 Continue reading [轉貼]雲端運算平台—Hadoop

[轉貼]Google 為什麼能在 0.15 秒找到數十萬筆資料？認識搜尋霸主的核心技術

http://techorange.com/2013/05/07/meet-google-search-engines-technique/

當你在瀏覽器上輸入想要搜尋的字串時，Google 會檢視數十億個網頁，並依據索引值從中找出內容相符合的網頁，再依據相關的規則列出先後次序，而搜尋引擎會將結果以最快的時間回傳。

但是，網路上的資料量不但龐大，而且內容隨時都在變化，甚至同一個網頁的內容都會一天數變，因此，Google 就必須時時進行更新的動作，這個動作叫「爬行」（Crawling），而執行爬行動作的程式一般俗稱「爬蟲」（Crawler）或「網路蜘蛛」（Spider），除了搜尋引擎之外，常見的應用還有比價系統，像是 FindPrice、背包客棧國際訂房中心比價等都是。

而 Google 之所以能成為其中的霸主，當然是有其過人之處。本篇文章就跟各位讀者簡單地分享一下 Google 所開發的三個核心技術：GFS、BigTable 與 MapReduce 演算法。 Continue reading [轉貼]Google 為什麼能在 0.15 秒找到數十萬筆資料？認識搜尋霸主的核心技術

[轉貼]Google 大神在 Big Data 應用上的技術與論文介紹，好神！

http://techorange.com/2013/05/14/big-data-beyond-mapreduce/

目前 Big Data 的相關應用有不少都是從 MapReduce 衍生而出的，但，若把焦點移到即時資料（Real-Time Data）的需求上時就會發現它的不足之處。

因此，本篇文章將與各位讀者分享，從 Google 發佈 GFS、Big Data 與 MapReduce 這些技術開始，到這些技術發展的現況與其所遭遇到的瓶頸，以及 Google 為了解決這些問題提出了哪些因應的技術。

MapReduce，GFS 與 Bigtable，帶動了 Big Data 應用技術的發展

Google 在 2003 年發表了第一篇論文〈The Google File System〉。文中敘述，GFS（Google File System）是一個分散式檔案系統，由數百個叢集（Cluster）所組成。簡單來說，儲存在 GFS 的檔案會被切割成 64 MB 左右的資料塊（Chunk），其利用重複的方式（Redundant Fashion）儲存在叢集中。 Continue reading [轉貼]Google 大神在 Big Data 應用上的技術與論文介紹，好神！

[轉貼]Big Data 時代，我們需要有超越 Hadoop 和 MapReduce 的殺手級技術

http://techorange.com/2013/05/02/beyond-hadoop-next-generation-big-data-architectures/

過去 25 年來，位居主流地位的關聯式資料庫（Relational Databases），在雲端計算與 Big Data 的發展中突顯了其不足之處，所以在最近幾年受到了「NoSQL」發展的挑釁與威脅。

像 Facebook、Google、Twitter 等大型網路企業，為了解決大量的資料存取問題，紛紛捨棄了關聯式資料庫技術，改以其它的相關技術，如「NoSQL」或是「Not Only SQL」等技術，以提升處理資料的效能與擴充的彈性。

而在此變遷中，Hadoop 逐漸成為一個關鍵的重要角色。Hadoop 是 Apache 軟體基金會所發展的雲端計算技術，使用 Java 撰寫並免費開放原始碼，優點在於有良好的擴充性，程式部署快速等，同時能有效地分散系統的負荷。 Continue reading [轉貼]Big Data 時代，我們需要有超越 Hadoop 和 MapReduce 的殺手級技術

[轉貼]Hadoop 不是萬能，破除七大迷思讓你做好 Big Data／Cloud Analysis

http://techorange.com/2013/06/04/7-myths-on-big-data-avoiding-bad-hadoop-and-cloud-analytics-decisions/

Hadoop 是 Apache 軟體基金會（Apache Software Foundation）因應 Cloud Computing 與 Big Data 發展所開發出來的技術，Hadoop 使用 Java 撰寫，並免費開放原始碼，在此背景之下，就足以讓 Hadoop 在資訊技術發展史上占有一席之地。

像 Yahoo 就利用 Hadoop Framework 的技術，建立網頁索引資料庫的計算，同時使用 1 萬個 Linux 平台的處理器核心，處理 1 兆個網頁連結，從 4PB 的資料，運算得出 300TB 的索引數據。

然而，盛名之下必有所累－－關於 Hadoop 的應用迷思也隨之而起。而這些迷思可能會導致企業的資訊部門決策者一廂情願／過於樂觀地制定相關決策。 Continue reading [轉貼]Hadoop 不是萬能，破除七大迷思讓你做好 Big Data／Cloud Analysis