當前位置:首頁  >  資訊列表

數據分析領域中最為人稱道的七種降維方法

2015-09-30 23:51:48 來源: 浙江易網科技股份有限公司(杭州)
近來由于數據記錄和屬性規模的急劇增長,大數據處理平臺和并行數據分析算法也隨之出現。
近來由于數據記錄和屬性規模的急劇增長,大數據處理平臺和并行數據分析算法也隨之出現。于此同時,這也推動了數據降維處理的應用。實際上,數據量有時過猶不及。有時在數據分析應用中大量的數據反而會產生更壞的性能。
最新的一個例子是采用 2009 KDD Challenge 大數據集來預測客戶流失量。 該數據集維度達到 15000 維。 大多數數據挖掘算法都直接對數據逐列處理,在數據數目一大時,導致算法越來越慢。該項目的最重要的就是在減少數據列數的同時保證丟失的數據信息盡可能少。
以該項目為例,我們開始來探討在當前數據分析領域中最為數據分析人員稱道和接受的數據降維方法。
缺失值比率 (Missing Values Ratio)
該方法的是基于包含太多缺失值的數據列包含有用信息的可能性較少。因此,可以將數據列缺失值大于某個閾值的列去掉。閾值越高,降維方法更為積極,即降維越少。


您給我們信任,我們給您驚喜!
易網10年對大數據技術和行業趨勢的深入洞察和積淀后,結合中國企業的實際情況和特色,已經探索出了一條商業智能可持續發展之路,形成了成熟的中國“平臺一體,智慧應用”的產業推進模式。
一向本著穩健的原則開拓與絕對領先的研發實力,保證公司在行業內的市場信用度和企業形象,使得公司能夠在智能科技領域保持領先地位。
聯系 Contact
057188848892
傳真:057187157782
郵箱:[email protected]
地址:浙江省杭州市西湖區雙龍街199號金色西溪商務中心1號樓1至2層
留言 Message
Copyright ? 2012 The things 浙江易網科技股份有限公司 make. All rights reserved. 浙ICP備09052236號-7

浙公網安備 33010602000702號

福彩3d稳赚不赔的技巧