大數據平臺與分析
Big Data Platform And Analysis
大數據體系
大數據時代有效利用創新業務內容及模式,通過快速滿足用戶的個性化需求,增加用戶黏性,是大數據為運營商帶來新的機遇。 迫切需求通過大規模的數據計算能力提供大粒度的數據創新應用。根據大數據體量巨大、類型繁多、處理速度快、價值密度低的四大特征,大數據處理的關鍵技術,主要體現在能夠有效地處理大量的容忍經過時間內的數據。
藍太平洋大數據平臺采用成熟的架構,采用數據采集、數據處理、數據分析、用戶畫像、數據推薦等技術,可以為用戶提供大數據平臺搭建、數據接口與清洗、訪問行為分析、系統監控、互聯網數據采集與分析、畫像推薦等服務。
數據采集與整合
傳統生產系統數據采集: 對于企業生產經營數據或學科研究數據等保密性要求較高的數據,使用特定系統接口等相關方式采集數據。
網絡數據采集是指通過網絡爬蟲或網站公開API等方式從網站上獲取數據信息。該方法可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,并以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯。除了網絡中包含的內容之外,對于網絡流量的采集可以使用DPI或DFI等帶寬管理技術進行處理。
藍太平洋結合多年的數據監測和采集經驗,形成了一套全面的數據采集系統,包括采集網站、微信、微博、論壇、APP、貼吧及各類業務系統數據,并可以進行全網采集、定向采集和智能分析。
數據分析
用戶洞察分析
基于龐大的數據處理能力與廣泛的產品覆蓋,為客戶提供快速、精確以及多維度的用戶群畫像服務。解決人群圈選、運營決策、營銷推廣以及用戶分析等業務問題.
區域人流分析
依托大數據計算平臺對人群動態進行跟蹤和分析,對城市警力、交通、電信等公共服務資源進行及時的優化配置。輔助商業決策制定,讓企業的商業行為緊貼目標客戶群。
搜索能力
基于在搜索領域多年的技術積累,通過對公司內部及各大垂直業務搜索需求進行高度抽象, 把搜索引擎組件化、平臺化、服務化,形成的一套成熟的搜索開放能力。
語言處理
基于并行計算、分布式爬蟲系統,結合獨特的語義分析技術,一站滿足NLP、轉碼、抽取、數據抓取等需求?;贏PI可實現搜索、推薦、輿情、挖掘等功能。同時支持定制化語義分析方案。
通用推薦
基于海量數據,多年個性化推薦業務經驗積累,打造的開放通用推薦系統。業務可以天級接入,同時也可基于通用開發和畫像實時接口自定義開發推薦邏輯。
全端數據
客戶端埋點、服務端日志、業務數據庫、第三方服務,全面覆蓋,統一管理 ,自由整合。
數據處理與存儲
Hadoop是一個能夠對大量數據進行分布式處理的軟件架構,?Hadoop實現了一個分布式文件系統HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的硬件上;而且它提供高吞吐量來訪問應用程序的數據,適合那些有著超大數據集的應用程序。
Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中,這使得其可以通過簡單的節點擴展,實現PB 級數據的處理。
藍太平洋大數據畫像
藍太平洋用戶畫像系統,根據用戶基本信息和訪問行為為每個用戶進行畫像建模和精準信息推送。
大數據實驗室
藍太平洋大數據實驗室搭建的目標就是搭建所有大數據平臺的組成元素,實驗人員、學生可以通過實驗室進行實驗以及測試活動,利用大數據實驗室的環境,在相對精簡設備條件下,結合大數據技術的特性,按照項目的模式,完成一定的業務需求應用。
在業務需求應用實驗的過程中,大數據實驗室根據實驗的過程調整合適的系統組成、系統或軟件產品版本、方案的服務需求,給出合適的評價,并根據評價的結果選擇最合適的技術及部署環境。
數據因其海量數據的最基本的要求,主要依托分布式處理環境,實驗室設備以x86 PC Server為主?;趚86設備部署云化環境。大數據實驗室環境依托Hadoop平臺環境,混搭其他技術平臺構建完整的實驗室環境。