Business School
商學(xué)院
手機(jī):13521943680
電話:010-62904558
在Glassdoor審查中使用語(yǔ)言模型,以一種我們?cè)緹o(wú)法做到的方式,幫助我們衡量了這種含糊不清的東西,稱(chēng)為“文化”。----阿米爾?戈德堡(Amir Goldberg)
它從一個(gè)問(wèn)題開(kāi)始。在阿米爾?戈德堡(Amir Goldberg)的案例中,這是一個(gè)長(zhǎng)期爭(zhēng)論的老問(wèn)題:公司文化的多樣性如何影響公司績(jī)效?
文化多樣性可能是一個(gè)巨大的優(yōu)勢(shì),可以通過(guò)豐富多樣的想法激發(fā)創(chuàng)造力。但是,人們可以輕易地想象這種多樣性會(huì)以其他方式推動(dòng)公司發(fā)展,從而在員工之間造成一系列阻礙績(jī)效的分歧。
多部分功能
這個(gè)由兩部分組成的功能探討了訪問(wèn)超大量數(shù)據(jù)集的多種方式,這些方式正在改變斯坦福GSB教職員工的研究面貌。
在第一篇文章中,教授們討論了大數(shù)據(jù)和機(jī)器學(xué)習(xí)如何改變了傳統(tǒng)的學(xué)術(shù)查詢(xún)方法-以及查詢(xún)本身的基本宗旨。
那么,戈德伯格想知道是什么呢?
數(shù)據(jù)
傳統(tǒng)上,對(duì)此問(wèn)題感興趣的研究人員會(huì)列出他們認(rèn)為最重要的公司文化的維度-公司可以是競(jìng)爭(zhēng)性或合作性,正式或非正式的。他們會(huì)將這些變量提煉成一份調(diào)查問(wèn)卷,然后發(fā)送給不同公司的數(shù)千名員工。
作為回報(bào),他們將獲得一個(gè)整齊的結(jié)構(gòu)化信息表:?jiǎn)T工A認(rèn)為Google具有競(jìng)爭(zhēng)力和創(chuàng)新性,而員工B則認(rèn)為沃爾瑪是官僚和正式的。等等。
戈德伯格解釋說(shuō),這種方法有兩個(gè)基本問(wèn)題。首先,研究人員將自己狹narrow的文化類(lèi)型強(qiáng)加給原本雜亂無(wú)章的系統(tǒng)。其次,人們實(shí)際上并不擅長(zhǎng)回答調(diào)查問(wèn)卷。他們以意想不到的方式解釋問(wèn)題。他們給出他們認(rèn)為研究人員想聽(tīng)到的答案。他們有時(shí)會(huì)猜測(cè),因?yàn)樗麄儾恢涝撜f(shuō)些什么。
戈德堡想采取一種不同的方法。他聯(lián)系了Glassdoor,這是一個(gè)求職和招聘網(wǎng)站,員工在該網(wǎng)站上匿名并公開(kāi)審查他們工作的公司。戈德堡想知道,當(dāng)不受調(diào)查約束時(shí),人們?nèi)绾握務(wù)摴镜奈幕??同一家公司的員工是否同意工作場(chǎng)所的文化?如果不是,他們將以何種方式不同意?
團(tuán)隊(duì)
戈德堡和兩位合著者,麥吉爾大學(xué)的Matthew Corritore和加州大學(xué)伯克利分校哈斯商學(xué)院的Sameer Srivastava,在七年的時(shí)間里,從492家上市公司中收集了大約500,000條評(píng)論。從大量混亂的數(shù)據(jù)中(規(guī)模和時(shí)間范圍完全超出了傳統(tǒng)調(diào)查的范圍),戈德堡開(kāi)始對(duì)文化的討論進(jìn)行提取和分類(lèi)。他在大海撈針。
Goldberg說(shuō),在整個(gè)過(guò)程中,他得到了Stanford GSB Data,Analytics和Research Computing專(zhuān)家的支持。他們幫助確保對(duì)數(shù)據(jù)的訪問(wèn)符合Glassdoor提出的要求。對(duì)于Goldberg所從事的其他項(xiàng)目,DARC幫助解決了第三方數(shù)據(jù)收集的合同迷宮,構(gòu)建了分析所需的內(nèi)部基礎(chǔ)結(jié)構(gòu),并將數(shù)據(jù)組織成可用的東西-借助它們,復(fù)雜的工作變得更加容易。
算法
人工完成后,對(duì)50萬(wàn)個(gè)Glassdoor評(píng)論的分析將是一項(xiàng)艱巨而艱巨的任務(wù)。因此,戈德堡轉(zhuǎn)向了一種機(jī)器學(xué)習(xí)方法,該方法在技術(shù)上稱(chēng)為“潛在狄里克雷分配主題建?!?。更非正式地講,這是“言語(yǔ)交流”方法。
對(duì)該算法的唯一限制是它應(yīng)該尋找多少個(gè)主題。在這種情況下,戈德堡可能會(huì)假設(shè)有50種相關(guān)的文化類(lèi)型。也許是100。(此猜測(cè)可以隨著時(shí)間的流逝而不斷完善,以找到最具解釋力的數(shù)字。)一旦算法知道要查找的主題數(shù),它就會(huì)掃描每個(gè)文檔并創(chuàng)建實(shí)質(zhì)上是一個(gè)巨大的電子表格,以定義一個(gè)單詞出現(xiàn)在句子中另一個(gè)單詞附近的概率。在不實(shí)際理解這些詞指的是什么的情況下,該算法能夠?qū)⒉煌脑~簇分類(lèi)為一個(gè)或另一個(gè)文化桶。
戈德伯格說(shuō):“該算法沒(méi)有自上而下地施加各種可能性,而是通過(guò)歸納推斷出無(wú)需人工輸入的類(lèi)別,”戈德伯格說(shuō)?!皼](méi)有人類(lèi)的了解正在發(fā)生;最基本的是,這是一個(gè)統(tǒng)計(jì)模型,用于查找傾向于同時(shí)出現(xiàn)的單詞?!?
分析
Goldberg和他的合作者首先在大約一百萬(wàn)個(gè)句子中訓(xùn)練了該算法,這些句子包含“文化”一詞或近似的同義詞(環(huán)境,氣氛,態(tài)度,氣候,價(jià)值,哲學(xué),信念)。這些單詞周?chē)霈F(xiàn)了什么單詞?該培訓(xùn)提供了一個(gè)可靠的不同文化類(lèi)別的模型,從此,研究人員將模型應(yīng)用到每條評(píng)論中的每個(gè)句子中,從而可以精確地討論有關(guān)公司文化的討論。
再次,該分析包括近500家上市公司,這使Goldberg隨后可以查看兩個(gè)主要數(shù)據(jù)點(diǎn)。首先,給定公司內(nèi)的人們?nèi)绾卧u(píng)價(jià)其文化?他們是否同意其工作場(chǎng)所的文化?他們是否認(rèn)為它包含多種文化?其次,該公司的資產(chǎn)收益率是什么—是其在市場(chǎng)上的有效性的代表?
戈德伯格說(shuō):“實(shí)質(zhì)上,我們對(duì)任何一家特定公司的文化都不感興趣?!?“我們有興趣簡(jiǎn)單地詢(xún)問(wèn)員工對(duì)于公司的文化是同意還是不同意。” 戈德堡發(fā)現(xiàn),在文化上存在分歧的公司效率較低,而在擁護(hù)多元文化的公司中更具創(chuàng)新能力。
最終,戈德伯格說(shuō),很容易被“機(jī)器學(xué)習(xí)”的光輝吸引住,這被現(xiàn)代文化中無(wú)所不知的光環(huán)所吸引。Goldberg承認(rèn):“這些工具-花哨,有趣且酷”。但是,一個(gè)基本問(wèn)題必須為機(jī)器學(xué)習(xí)的學(xué)術(shù)應(yīng)用提供信息?!盀槭裁葱枰褂盟??”
他指出,除了趨勢(shì)之外,研究人員還應(yīng)該有一個(gè)清晰而引人注目的案例,以使用復(fù)雜且通常不透明的算法來(lái)探索巨大的數(shù)據(jù)集。這項(xiàng)工作可能吸引資金和關(guān)注,但是有必要嗎?
戈德堡說(shuō):“就我們而言,在Glassdoor評(píng)論中使用語(yǔ)言模型可以幫助我們以一種我們?cè)緹o(wú)法擁有的方式來(lái)衡量這種模糊的東西,即'文化'。” “我們從這項(xiàng)工作中學(xué)到的東西,否則我們根本無(wú)法學(xué)到?!?
相關(guān)推薦
- 博士研究生(含在職)如何準(zhǔn)備論文答辯
- 博士研究生論文答辯決議書(shū)常見(jiàn)模板
- 6月5日《論文研究方法課》我們不見(jiàn)不散!
- 國(guó)內(nèi)博士生考試的流程、形式、要求和“內(nèi)幕”嗎?
- 博士研究生論文:什么影響了師門(mén)組會(huì)發(fā)言《基于人文社科博
- 博士研究生畢業(yè)論文輔導(dǎo)之如何寫(xiě)研究計(jì)劃書(shū)
- 教育部博士研究生學(xué)位論文造假行為處理辦法實(shí)施細(xì)則
- 在職(全日制)博士論文答辯相關(guān)規(guī)定
- 工商管理博士論文馬雷鵬“SAP動(dòng)態(tài)能力:軟件工業(yè)中對(duì)全球分
- 工商管理博士學(xué)位課程的關(guān)鍵“論文”