大數據教程
R是一種編程語言和軟件環境,用於進行統計分析,圖形表示和報告。 R語言是由Ross Ihaka 和 Robert Gentleman 在新西蘭奧克蘭大學的創建,目前是R的開發核心團隊。
Solr是一個開源搜索平臺,用於構建搜索應用程序。 它建立在Lucene(全文搜索引擎)之上。 Solr是企業級的,快速的和高度可擴展的。 使用Solr構建的應用程序非常複雜,可提供高性能。
Elasticsearch是一個建立在全文搜索引擎 Apache Lucene(TM) 基礎上的搜索引擎,可以說 Lucene 是當今最先進,最高效的全功能開源搜索引擎框架。Elasticsearch 是一個實時的分佈式搜索和分析引擎。它可以幫助你用前所未有的速度去處理大規模數據。
HBase是建立在Hadoop文件系統之上的分佈式面向列的數據庫。它是一個橫向擴展的開源項目。它提供對數據的隨機實時讀/寫訪問,並作爲Hadoop文件系統的一部分。
Hadoop是一個開源框架,它允許在整個集羣使用簡單編程模型計算機的分佈式環境存儲並處理大數據。它的目的是從單一的服務器到上千臺機器的擴展,每一個臺機都可以提供本地計算和存儲。
Hive是一個數據倉庫基礎工具在Hadoop中用來處理結構化數據。它架構在Hadoop之上,總歸爲大數據,並使得查詢和分析方便。並提供簡單的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行運行。
Sqoop是Hadoop和關係數據庫服務器之間傳送數據的一種工具。它是用來從關係數據庫如:MySQL,Oracle到Hadoop的HDFS,並從Hadoop的文件系統導出到關係數據庫數據。
Apache Spark是一個集羣計算設計的快速計算。它是建立在Hadoop MapReduce之上,它擴展了 MapReduce 模式,有效地使用更多類型的計算,其中包括交互式查詢和流處理。這是一個簡單的Spark教程,介紹了Spark核心編程的基礎知識。
ZooKeeper是一個分佈式協調服務來管理大量的主機。協調和管理在分佈式環境的一個服務是一個複雜的過程。ZooKeeper 簡單解決了其結構和API這個問題。ZooKeeper允許開發人員能夠專注於核心應用程序邏輯,而無需擔心應用程序的分佈式特性。
Apache Kafka起源於LinkedIn,後來於2011年成爲Apache開源項目,然後於2012年成爲Apache項目的第一個類別。Kafka是使用Scala和Java編寫的。 Apache Kafka是基於 - 發佈訂閱的容錯消息系統。 它具有快速,可擴展和設計分佈的特點。
在這個新的時代,數據是新石油。數據科學是通過組織,處理和分析數據從大量不同的數據中獲取知識和洞察力的過程。 它表明了每個現代IT系統如何通過捕獲,存儲和分析的數據來滿足各種需求。無論是做生意決策,預測天氣,研究生物學中的蛋白質結構或設計營銷活動。
Pandas是一款開放源碼的BSD許可的Python庫,爲Python編程語言提供了高性能,易於使用的數據結構和數據分析工具。Pandas用於廣泛的領域,包括金融,經濟,統計,分析等學術和商業領域。