數位鐐銬

追蹤數據到底在測量什麼？

大多數使用「行為追踪數據」去進行測量的目的是——從儀器產生的「原始數據」中提取意義。所有的「科學數據儀器」都面臨著這個問題，但是、當我們使用從：「為了其他目的而設計的系統中」回收而來的數據時，從「原始數據」到「有意義的度量」往往跨度非常大（詮釋上也非常困難）。比如：未經處理，和未報告特定緯度和經度的移動電話的移動數據，它在很大程度上是無趣的，而、有經過處理的數據，會使得我們能夠測量到數據和數據的：接近度（親進度）、移動，和其他與社會相關的概念。總體來說：21 世紀的觀測數據不是為研究而設計的，在能夠利用這些數據回答科學研究問題之前，我們需要把這些觀測數據與已知的概念連結起來。而度量的「意義」則部分來自於「理論」：也就是「應用現有知識去解釋數位訊號的理論」，並去帶動或驅動——設計可以克服使用儀器化行為數據的許多問題。相反地，缺乏理論化的特殊操作會使研究結果難以解釋，並且在不同的研究中呈現出不一致。

舉個例子：假如我們一起來思考——如何使用「移動的、流動性的數據」來研究 COVID-19 的傳播。以 2019 年中國為例：疫情中心還在中國時，有很多研究會使用「即時性的旅行數據」來追蹤「武漢」到「中國其他省份」的人員移動，研究人員發現：來自「武漢的人口流動」對於冠狀病毒是否會「流入一個地區」具有強烈的預測性。於是當地疾控人員預測了病毒後續的傳播。在這些研究中，就有一個被很好地「理論化」的過程——就是，假設：病毒的傳播是由個體的接近（親近）所驅動的。再比如：研究人員利用「手機數據」設計了一種基於「接近度」（或稱親進度）的測量方法，用來記錄人們接近彼此的時間（例如：臺灣社交距離 App 的部分用途）。這些指標，可以用於各種各樣有用的目的。它們可以作為「關係強度」的指標，也可以作為一種「追踪病毒傳染途徑」的方法。但是，這種方法也會有錯誤的可能性：例如，兩個藍牙訊息標示、所顯示設備互相接近的人，他們可能中間隔著一堵牆，或者可能只是從同一個插座給手機充電。

即便近年有數千篇基於 Twitter 數據的論文，但，社交媒體學者仍然發現：要識別個人用戶的統計特徵，仍然是一個巨大挑戰。除此之外，其實研究人員也仍然無法可靠地去區分「人類」和「非人類」（例如，機器人、集體帳號或組織）。因此，Twitter的大部分研究，都是對帳號或推文進行「推斷」；很少有 Twitter 的研究，可以合理地宣稱——自己是在對「人類的行為」進行陳述。然後、即使「人類是特定行為的來源」，但，將「特定行為」歸因於「特定的人」也可能會遇到一些挑戰。例如，在廣播電視發展的早期的受眾研究也遭遇到了「多成員家庭」的挑戰類似——也就如筆者前述所提到的，當調查人員打了一通調查電話去詢問觀眾「一共聽多少次的選舉演講內容」根本不精確，因為一支電話不代表是一個用戶、而是一個家庭，家庭成員中，有人可能同時喜歡兒童漫畫和有線新聞（或頻道中的特定政論節目），事實上、這通電話中就這涉及兩個不同的個體。因此，當行為是「人（比如：兩個人使用同一個 Netflix 帳戶）」、或「設備（在智慧型手機和電腦上查看 Twitter 的同一個人）」之間的共享時，技術設備可能會產生誤導。另一個會造成誤導更嚴重的問題是：「設備——人」無法配對，也可能會隨著「時間的推移」迅速演變。比如：有線新聞的瀏覽者可能是祖父母，而Xbox16 用戶可能是孫輩。然而，這些模型中包含的數據總是來自過去（而非即時或當下），而且度量之間的關係本身就是不穩定的。這種數據誤判我們還可以針對下列兩項進行深度討論。全文詳見：技術碎片化的時代——初探「人類行為的測量技術」的設計。