如何收集你需要的數據?
這是一個資訊爆炸的時代,可是多數人卻不知道如何尋找自己需要的數據。
一般來說,有些人尋找數據,是為了做出正確的商業決策;有些人要完善自己的技能,在事業上更上層樓;另一些人或為社會,或為科學而搜尋數據。
特別是,有些人蒐集詳細的數據,是為了做出統計分析,卻不知道絕大多數的人可以找到已經為他們做好了一部分統計分析的資訊,包括報告、表單數據的總匯,甚至只是具體事實,幾乎所有的人都能夠找到對他們有用的數據。
由於不知道怎樣尋找豐富的數據,許多人根本不去尋找。他們根據自己的個人觀點做決定,或者根據新聞報導做決定,即使使用數據,也不知道使用對他們有用的數據類型或數據的來源。
想要找到需要的數據,必須要有明確的目標,和使用它的目地。資訊的目標越清晰,找到合適的資源就越容易。
下面是四種主要的數據來源,可以引導你找到最好的數據。
1)內部資訊
自己工作單位裡面已經有的資訊,是獲取數據首先應該考慮的地方。你可以找到對你的機構特別相關的、競爭者找不到的,詳細的數據。
這並不容易,你必須明白是什麼部門蒐集和保存這些數據,如何能夠訪問這個網址,以及允許什麼樣的用途。這是為什麼明確的、詳細的目標是如此的重要。
你可能需要向管理階層提出正式申請,獲得准許,而成功與否則要看你的特定目標和一個清晰的商業案例。
拒絕走後門或捷徑的誘惑。 你的資訊科技部門設下的規則也許讓你頭痛, 但是它們的設立是為了保證你的工作單位遵守法律。
2)政府及非營利組織
如果你必須從單位以外的地方搜尋數據,一定要盡量從政府機構或非營利組織搜尋資料。每一個政府機構都會蒐集數據,而且它們有法律上的義務同公眾分享,至少分享一部分數據。 海量多的資料就在電腦、電話或公共圖書館裡,等你使用。
政府機構的數據有些是交易型的 ,就是為了做出分析,特別收集起來的一份政府活動紀錄或統計,例如財產轉讓和投票紀錄,就是交易型的數據。人口普查是統計數據,消費物價指數也是。雖然交易數據通常只有詳細的表格,例如個人的交易紀錄,但是為了保護個人隱私,統計數據通常是匯總的型態。
有些機構的數據比別的機構有用,但是首先你得找到這個機構才能找到其它。需要一般美國人的數據,找美國人口普查局;需要知道豬腩的價格,找農業部。網上有一個門戶網站data.gov,可以幫你找到數據,但是如果你不熟悉術語或找不到正確的名稱,別放棄,可以打電話到似乎最適合的機構去問。
許多非營利組織是他們的專業領域中良好的數據來源。例如企業信息,就要調查相關的行業協會。一個很好的資料來源是《協會百科全書》( Encyclopedia of Associations),包含有企業協會、社會事業協會和研究協會。這本書在大多數公共圖書館和大學圖書館裡都可以找到。 記住,這些機構通常分享的資訊都是報告的形式,不是數據,所以向他們申請資訊時要說清楚你要的是數據。
如果網上找到的數據來源不明確、不對應,不要使用它。網上浮動的數據集對於練習數據分析的人可能很有用, 但是如果你要靠它來決定策略,你最好知道它的正確來源。
3)商業性
如果你需要的數據無法從內部、政府機構,或非營利組織得到,不妨考慮購買它。 有些由政府收集和格式化的數據意義重大,價錢也便宜。不過要小心,並非所有的商業性數據的質量都好。在花費大價錢購買以前,問問出售者數據是怎樣得到的,如何處理的,並且調查一些樣本。
4)蒐集新的數據
最後一招是,由於數據根本不存在,而無法找到時,不妨自己出去蒐集一下。這要看你需要的是什麼數據。你可以根據你所需要的數據,進行一項調查,安裝傳感器或派人出去觀察、衡量,得出數據。這可能會即花時間又花錢,好處是你蒐集的數據是你真正需要的,而且完全屬於你自己。◇