?
最新報(bào)名:
商學(xué)院banner圖
博士研究人員在處理大數(shù)據(jù)集時(shí)面臨的5個(gè)挑戰(zhàn)
發(fā)布時(shí)間:2022-01-13 20:51:35

博士研究人員在處理大數(shù)據(jù)集時(shí)面臨的5個(gè)挑戰(zhàn)
大數(shù)據(jù)給每個(gè)科學(xué)學(xué)科的研究方式帶來了前所未有的變化。研究人員的工具僅限于其領(lǐng)域的特殊性,而大數(shù)據(jù)現(xiàn)在正日益成為跨學(xué)科的通用工具。大數(shù)據(jù)集的可用性以及存儲和共享大量數(shù)據(jù)的能力為研究人員開辟了多種科學(xué)探索途徑。
作為研究工作的基礎(chǔ),數(shù)據(jù)對研究人員來說非常有價(jià)值。因此,數(shù)據(jù)泛濫被大多數(shù)研究人員視為福音,尤其是那些在遺傳學(xué)、天文學(xué)和粒子物理學(xué)領(lǐng)域工作的研究人員。雖然大數(shù)據(jù)現(xiàn)在被認(rèn)為是一種無與倫比的科學(xué)范式,但統(tǒng)計(jì)學(xué)家建議研究人員對大數(shù)據(jù)保持警惕,因?yàn)榇髷?shù)據(jù)的性質(zhì)是多維的且不斷變化的。研究人員已經(jīng)接受了大數(shù)據(jù),但隨著它提供的機(jī)會,它也帶來了復(fù)雜性。院士在處理大數(shù)據(jù)時(shí)面臨的一些主要挑戰(zhàn)是:


1. 有效管理數(shù)據(jù)是困難的:存儲大量數(shù)據(jù)給沒有機(jī)構(gòu)支持的研究人員帶來了基礎(chǔ)設(shè)施和經(jīng)濟(jì)問題。除此之外,管理和共享大型數(shù)據(jù)集也很復(fù)雜,因?yàn)閿?shù)據(jù)的隱私、安全和完整性可能會導(dǎo)致涉及國際合作的利益沖突。因此,需要一種可持續(xù)的經(jīng)濟(jì)模型,以克服基礎(chǔ)設(shè)施挑戰(zhàn)并為數(shù)據(jù)驅(qū)動(dòng)的研究提供更順暢的過程。

   
2. 數(shù)據(jù)收集優(yōu)先于研究設(shè)計(jì):盡管數(shù)據(jù)對于任何研究都至關(guān)重要,但有時(shí),收集數(shù)據(jù)的重要性高于精心設(shè)計(jì)的研究。一些研究人員傾向于抱有這樣的誤解,即更多的數(shù)據(jù)與更好的研究直接相關(guān)。與其關(guān)注收集數(shù)據(jù)的方式和收集數(shù)據(jù)的目的,不如收集大量數(shù)據(jù),并假設(shè)它會加強(qiáng)研究。這方面的一個(gè)例子是英國的一項(xiàng)研究,該研究涉及 20,000 名兒童,以評估巴氏殺菌牛奶的益處。該 研究設(shè)計(jì)和 進(jìn)行試驗(yàn)的規(guī)模受到統(tǒng)計(jì)學(xué)家威廉?戈塞特的批評。他說,由于隨機(jī)化不充分,只有 6 對雙胞胎的研究會更可靠。 


3. 大數(shù)據(jù)分析需要特殊工具:大量數(shù)據(jù)無法使用常規(guī)數(shù)據(jù)分析工具進(jìn)行分析。標(biāo)準(zhǔn)軟件技術(shù)通常設(shè)計(jì)用于分析小型數(shù)據(jù)集。然而,大數(shù)據(jù)包含如此龐大的數(shù)據(jù),以至于傳統(tǒng)工具要么需要大量時(shí)間來分析它,要么無法處理它。因此,需要特殊的工具將數(shù)據(jù)連接到模型,以實(shí)現(xiàn)對數(shù)據(jù)的準(zhǔn)確評估。這方面的一個(gè)例子是 Microsoft 的稱為 FaST-LMM(因子譜變換線性混合模型)的算法。 


4. 數(shù)據(jù)泛濫可能使數(shù)據(jù)解釋變得具有挑戰(zhàn)性:大數(shù)據(jù)包含來自各種來源的數(shù)據(jù),使其具有多面性且難以解釋。例如,包含有關(guān)世界人口信息的數(shù)據(jù)集將包括基于不同地理位置、生活方式等的數(shù)據(jù),并且可以使用不同的技術(shù)進(jìn)行收集。研究人員可能無法考慮數(shù)據(jù)的所有方面,從而導(dǎo)致錯(cuò)誤的結(jié)論。因此,需要開發(fā)能夠克服統(tǒng)計(jì)偏差的可靠數(shù)據(jù)解釋程序。     


5. 在數(shù)據(jù)中尋找模式的傾向是危險(xiǎn)的:由于大數(shù)據(jù)很大,研究人員需要從數(shù)據(jù)集中分離出有用的數(shù)據(jù)。然而,在大多數(shù)情況下,不是消除不需要的數(shù)據(jù),而是傾向于尋找模式,直到數(shù)據(jù)中的一些證據(jù)支持預(yù)先設(shè)想的想法。在進(jìn)行研究時(shí),這是一個(gè)危險(xiǎn)的陷阱。            
不可否認(rèn),數(shù)據(jù)是一種寶貴的資產(chǎn)——2012 年世界經(jīng)濟(jì)論壇將數(shù)據(jù)宣布為一類新的經(jīng)濟(jì)資產(chǎn)證實(shí)了這一事實(shí)——大數(shù)據(jù)在科學(xué)進(jìn)步中發(fā)揮著開創(chuàng)性的作用。然而,處理大量數(shù)據(jù)的缺點(diǎn)表明,大數(shù)據(jù)可能并不總是能拼出好的數(shù)據(jù)。因此,研究人員需要平衡數(shù)據(jù)與他們的主題專業(yè)知識和科學(xué)推理,以實(shí)現(xiàn)大數(shù)據(jù)的最佳潛力。

 

上一篇:
下一篇:美英博士后研究人員面臨的挑戰(zhàn)
  • 友鏈

版權(quán)申明:以上課程知識產(chǎn)權(quán)歸屬辦學(xué)方 清大紫荊管理博士課程教育中心網(wǎng)僅提供課程信息展示,而非商業(yè)行為
在職工商管理博士研究生網(wǎng)僅提供技術(shù)支持 http://appleseedexpress.com/ 粵ICP備17004821號
Copyrights © 2007-2022 PXEMBA.COM Inc. All rights reserved