開發(fā)數(shù)據(jù)工具
“紙上得來終覺淺,絕知此事要躬行”,但是對于大多數(shù)的學(xué)生來講,現(xiàn)實世界的開發(fā)工具太過昂貴。下面由學(xué)習(xí)啦小編為大家整理的開發(fā)數(shù)據(jù)工具,希望大家喜歡!
開發(fā)數(shù)據(jù)工具
一、Solr
基于Apache Lucene,是一種高度可靠、高度擴(kuò)展的企業(yè)搜索平臺。知名用戶包括eHarmony、西爾斯、StubHub、Zappos、百思買、AT&T、Instagram、Netflix、彭博社和Travelocity。
二、Shark
即Hive on Spark,本質(zhì)上是通過Hive的HQL解析,把HQL翻譯成Spark上的RDD操作,然后通過Hive的metadata獲取數(shù)據(jù)庫里的表信息,實際HDFS上的數(shù)據(jù)和文件,會由Shark獲取并放到Spark上運(yùn)算。Shark的特點就是快,完全兼容Hive,且可以在shell模式下使用rdd2sql()這樣的API,把HQL得到的結(jié)果集,繼續(xù)在scala環(huán)境下運(yùn)算,支持自己編寫簡單的機(jī)器學(xué)習(xí)或簡單分析處理函數(shù),對HQL結(jié)果進(jìn)一步分析計算。
三、Terracotta
聲稱其BigMemory技術(shù)是“世界上首屈一指的內(nèi)存中數(shù)據(jù)管理平臺”,支持簡單、可擴(kuò)展、實時消息,聲稱在190個國家擁有210萬開發(fā)人員,全球1000家企業(yè)部署了其軟件。
搜索開發(fā)數(shù)據(jù)工具
一、 Elasticsearch
是一個基于Lucene的搜索服務(wù)器。它提供了一個分布式、支持多用戶的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java開發(fā)的,并作為Apache許可條款下的開放源碼發(fā)布,是當(dāng)前流行的企業(yè)級搜索引擎。設(shè)計用于云計算中,能夠達(dá)到實時搜索、穩(wěn)定、可靠、快速、安裝使用方便。
二、Lucene
基于Java的Lucene可以非常迅速地執(zhí)行全文搜索。據(jù)官方網(wǎng)站聲稱,它在現(xiàn)代硬件上每小時能夠檢索超過150GB的數(shù)據(jù),它擁有強(qiáng)大而高效的搜索算法。
三、 Kibana
是一個使用Apache 開源協(xié)議的Elasticsearch 分析和搜索儀表板,可作為Logstash和ElasticSearch日志分析的 Web 接口,對日志進(jìn)行高效的搜索、可視化、分析等各種操作。
收集開發(fā)數(shù)據(jù)工具
一、 Splunk
是機(jī)器數(shù)據(jù)的引擎。使用 Splunk 可收集、索引和利用所有應(yīng)用程序、服務(wù)器和設(shè)備(物理、虛擬和云中)生成的快速移動型計算機(jī)數(shù)據(jù),從一個位置搜索并分析所有實時和歷史數(shù)據(jù)
二、Pentaho
是世界上最流行的開源商務(wù)智能軟件,以工作流為核心的、強(qiáng)調(diào)面向解決方案而非工具組件的、基于Java平臺的商業(yè)智能(Business Intelligence)套件。包括一個web server平臺和幾個工具軟件:報表、分析、圖表、數(shù)據(jù)集成、數(shù)據(jù)挖掘等,可以說包括了商務(wù)智能的方方面面。
三、Lingual
是Cascading的高級擴(kuò)展,為Hadoop提供了一個ANSI SQL接口極大地簡化了應(yīng)用程序的開發(fā)和集成。Lingual實現(xiàn)了連接現(xiàn)有的商業(yè)智能(BI)工具,優(yōu)化了計算成本,加快了基于Hadoop的應(yīng)用開發(fā)速度。