arXiv 文獻日報｜2026-05-12

今日 / 領域溫度計 FIELD TEMPERATURE

熱門主題

人機協作與使用者體驗・AI倫理與社會影響・LLM認知與可靠性

新興焦點

AI伴侶與親密關係・多模態提示工程

冷門值得關注

腦電圖疲勞預測

01 / 今日推薦文獻 TODAY'S PICKS

cs.AI

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

這項研究深入探討視覺語言模型（VLM）的內部運作機制，特別是其注意力與回答信心之間的關係，對理解AI「思考」方式至關重要。這有助於提升AI系統的透明度和可信賴性，對於高風險應用尤其重要。

Logan Mann

→ 閱讀原文 arXiv

cs.HC

AwareLLM: A Proactive Multimodal Ecosystem for Personalized Human-AI Collaboration to Enhance Productivity

本論文提出一個能感知使用者認知與生理狀態的AI協作系統，旨在實現更個人化、主動式的AI輔助，大幅提升資訊工作者的生產力。這代表了人機互動從被動響應轉向主動適應的未來趨勢。

Amog Rao

→ 閱讀原文 arXiv

cs.CL

Change My View? The Dynamics of Persuasion and Polarization in Online Discourse

這項研究利用大型語言模型分析線上論壇中的說服與極化現象，揭示人類觀點轉變的複雜動態。這不僅深化了我們對社會心理學的理解，也為設計更有效、更具建設性的線上溝通提供了新視角。

David Freeborn

→ 閱讀原文 arXiv

Today's Insight

今日的AI與心理學領域研究熱點聚焦於提升AI的可靠性與理解人類行為。我們看到研究者深入探討LLM的內部機制，如注意力與信心，並開發能感知人類認知與生理狀態的AI協作系統。同時，AI在理解人類社會互動（如說服與親密關係）方面也取得進展，揭示了AI伴侶的「速食式親密」現象。這些研究不僅推動了AI技術的發展，也為心理學理論提供了新的視角和實驗工具。

明日值得關注

明日值得關注的議題將是如何在AI的強大能力與人類的心理福祉之間取得平衡，特別是在AI倫理、隱私保護以及AI對人類認知和社會關係的深遠影響方面。

02 / 精選 TOP 5 研究深度解析 DEEP REVIEW

No. 01

Fast-Food Intimacy: How Chinese Women Navigate Soul's AI Boyfriend

cs.CYcs.HC 2026-05-12

這項研究探討了中國社交應用Soul上年輕女性與AI男友「With-you」建立親密關係的現象。研究動機在於理解AI伴侶如何影響人類的親密體驗，特別是在其便利性與潛在限制之間。透過對16位用戶的訪談、內容分析和自動民族誌，研究發現用戶最初被AI的隨時可用性和免於社會評判所吸引。然而，研究也揭示了AI「速食式親密」的三個主要矛盾，包括即時滿足與情感深度不足、缺乏真實互動的挑戰，以及對人類關係的潛在影響。這些發現為AI伴侶的設計和倫理考量提供了重要見解，並對人機關係的未來發展提出反思。

中國女性如何體驗並協商與AI男友的親密關係？

深度點評

這項研究採用質性方法，深入探討了AI伴侶在特定文化背景下的使用者經驗，其細膩的分析超越了量化研究的表面數據，揭示了「速食式親密」等獨特概念。
相較於傳統的人機互動研究，本研究更側重於情感與社會心理層面，將AI視為一種新型的社會互動對象，而非僅僅是工具，為AI倫理和社會影響研究開闢了新視角。
研究結果對AI伴侶的設計者具有重要啟示，提醒他們在追求便利性的同時，需關注情感深度、真實性與長期關係維護，以避免潛在的心理健康和社會問題。

研究貢獻

揭示了AI伴侶在中國文化背景下的獨特親密關係模式。
提出了「速食式親密」的概念，描述AI伴侶關係的特徵與挑戰。
透過質性研究方法，深入理解用戶對AI伴侶的情感需求與矛盾。

研究限制

研究樣本主要為中國年輕女性，結果的普適性可能受限於文化和性別差異。
質性研究的結果難以量化，可能需要進一步的量化研究來驗證其發現。

→ 閱讀原文arXiv

No. 02

Rushed by Discomfort, Trapped by Immersion: Users' Experiences and Responses to Privacy Deceptive Design in Commercial VR Applications

cs.HC 2026-05-12

商業虛擬實境（VR）應用在改變用戶體驗的同時，也引入了可能威脅用戶隱私的欺騙性設計。儘管2D平台上的隱私欺騙模式已被廣泛記錄，但其在VR中的影響仍未被充分研究。本研究旨在填補這一空白，調查用戶在八種商業VR情境中對隱私欺騙模式的體驗和反應。研究發現，VR欺騙性設計不僅利用了認知上的脆弱性，還利用了身體上的壓力，這種現象被定義為「人體工學易感性」。此外，VR豐富的感官體驗和沉浸感會加劇用戶的困境，使他們在不適感和沉浸感之間進退兩難，難以有效應對隱私威脅。

VR中的隱私欺騙性設計如何影響用戶體驗與反應？

深度點評

本研究創新性地提出了「人體工學易感性」概念，將身體不適與認知脆弱性結合，解釋了VR環境下隱私欺騙設計的獨特影響機制，深化了對欺騙性設計的理解。
與傳統2D平台隱私研究相比，本研究聚焦VR的沉浸式特性，揭示了其如何放大用戶在隱私決策中的困境，為VR/XR領域的隱私保護提供了新的理論框架和實證依據。
研究結果對VR應用開發者和政策制定者具有重要指導意義，強調在設計VR體驗時需特別關注用戶的身體感受和認知負荷，以避免無意或有意的隱私侵犯，促進更負責任的VR生態系統。

研究貢獻

首次系統性地調查了商業VR應用中的隱私欺騙性設計。
提出了「人體工學易感性」概念，解釋VR環境下用戶對隱私威脅的脆弱性。
揭示了VR沉浸感如何加劇用戶在隱私決策中的困境。

研究限制

研究依賴用戶自報問卷數據，可能存在回憶偏差或社會期望效應。
實驗情境可能無法完全模擬真實VR使用中的所有複雜因素。

→ 閱讀原文arXiv

No. 03

Who embraces AI in play? Exploratory modeling of player preference profiles toward game AI

cs.HC 2026-05-12

人工智慧正透過多樣化的功能日益融入數位遊戲。儘管先前的研究表明玩家對遊戲AI的態度強烈依賴於情境，但對於這些態度如何在不同玩家群體中結構性地結合，我們知之甚少。本研究旨在透過建模玩家跨情境的AI接受度為可解釋的態度概況來解決這一空白。基於771名數位遊戲玩家的問卷數據，我們應用原型分析（Archetypal Analysis, AA）來分析八種代表性遊戲AI功能下的居中接受度評分，識別出四種獨特的玩家態度概況，並探討了這些概況與人口統計學、遊戲習慣和個性特徵的關聯。

玩家對遊戲AI的態度如何結構性地結合形成不同的偏好概況？

深度點評

本研究採用原型分析（AA）來識別玩家對遊戲AI的多元態度概況，這種方法能夠捕捉複雜的、多維度的偏好結構，比傳統的聚類分析更具解釋力，為使用者研究提供了新的分析工具。
相較於僅關注單一情境下玩家態度的研究，本研究透過跨情境分析，揭示了玩家偏好的深層結構，有助於遊戲開發者更精準地理解不同玩家群體的需求，進而設計出更具吸引力的AI體驗。
研究結果對遊戲設計和AI開發具有直接指導意義，開發者可以根據不同的玩家偏好概況，客製化遊戲AI的功能和行為，提升玩家的沉浸感和滿意度，同時也為AI在娛樂領域的應用提供了心理學基礎。

研究貢獻

首次透過原型分析識別出玩家對遊戲AI的四種獨特態度概況。
揭示了玩家跨情境AI接受度的結構性組合。
探討了玩家態度概況與人口統計學、遊戲習慣和個性特徵的關聯。

研究限制

研究數據主要來自問卷調查，可能存在自報偏差。
原型分析的結果解釋可能帶有一定主觀性，需要進一步的驗證。

→ 閱讀原文arXiv

No. 04

Fatigue-Related Reaction Time Forecasting via EEG Functional Connectivity in Sustained Attention Task

cs.AIcs.HC 2026-05-12

精神疲勞導致的行為表現下降在持續注意力任務中可能引發災難性事故。儘管現有的神經生理系統能有效檢測當前的行為表現，但它們往往缺乏足夠的提前時間來預測行為失誤，以便進行干預。本研究提出了一種新穎的模型，利用腦電圖（EEG）功能連接特徵來預測反應時間（RT）。三十名參與者進行了持續的心理運動警覺性測試（PVT），同時記錄了30通道的EEG數據。研究結果顯示，該模型能夠在行為失誤發生前提供顯著的預測能力，為早期干預和事故預防提供了潛在途徑。

如何利用EEG功能連接特徵有效預測持續注意力任務中的疲勞相關反應時間下降？

深度點評

本研究創新性地將EEG功能連接特徵引入反應時間預測模型，超越了傳統的單一腦區活動分析，為理解疲勞狀態下大腦網絡的動態變化提供了更全面的視角，並提升了預測的精準度。
相較於僅能檢測當前疲勞狀態的系統，本研究提出的模型具有「預測」能力，能夠在行為失誤發生前提供足夠的提前量進行干預，這在實際應用中具有重大突破性意義。
研究結果對高風險職業（如飛行員、外科醫生）的疲勞監測和預防具有直接應用價值，有助於開發實時預警系統，顯著提升工作安全性和效率，同時也為認知神經科學研究提供了新的生物標誌物。

研究貢獻

提出利用EEG功能連接特徵預測疲勞相關反應時間的模型。
實現了在行為失誤發生前提供足夠提前量的預測能力。
為持續注意力任務中的疲勞監測和干預提供了新方法。

研究限制

研究樣本量相對較小（30名參與者），可能影響模型的泛化能力。
EEG數據的採集和處理複雜，實際部署可能面臨技術挑戰。

→ 閱讀原文arXiv

No. 05

Causal Stories from Sensor Traces: Auditing Epistemic Overreach in LLM-Generated Personal Sensing Explanations

cs.CYcs.HC 2026-05-12

大型語言模型（LLM）越來越多地被用於解釋個人感測數據，將活動和情緒的追蹤轉化為自然語言，解釋異常情況發生的原因。然而，即使底層證據稀疏或缺失，這些解釋聽起來仍然連貫且具有個人意義。本研究引入「認知越界」（epistemic overreach, EO）作為衡量生成解釋超出可用感測證據合理範圍的指標。為了審計EO發生的頻率和形式，我們從三個異常日情境中獲取數據，並利用LLM生成解釋，然後由人類評估其認知越界程度，揭示了LLM在解釋個人數據時可能存在的過度推斷問題。

LLM在解釋個人感測數據時，如何產生超出可用證據的「認知越界」？

深度點評

本研究創新性地提出了「認知越界」（EO）這一概念，精準捕捉了LLM在解釋個人數據時可能存在的過度推斷問題，為評估LLM解釋的可靠性和誠實性提供了新的視角和量化指標。
相較於傳統的幻覺檢測，EO更側重於解釋的「合理性」與「證據支持度」，而非單純的事實錯誤，這對於LLM在敏感領域（如醫療、心理健康）的應用具有更深層次的倫理和實踐意義。
研究結果對開發更負責任、更透明的LLM解釋系統具有重要指導價值，提醒設計者需警惕模型在生成解釋時的「過度自信」，並探索如何將證據限制納入生成過程，以避免誤導用戶或造成潛在危害。

研究貢獻

引入「認知越界」（Epistemic Overreach, EO）概念，用於評估LLM解釋的可靠性。
設計實驗審計LLM在個人感測數據解釋中EO發生的頻率和形式。
揭示了LLM在證據稀疏情況下生成連貫但過度推斷解釋的問題。

研究限制

人類評估EO可能存在主觀性，需要更標準化的評估準則。
研究情境主要集中在個人感測數據，結果可能無法直接推廣到所有LLM解釋場景。

→ 閱讀原文arXiv

03 / LLM × 心理學精選 TOP 3 LLM × PSYCHOLOGY

LLM × 心理學 No.01

SalesSim: Benchmarking and Aligning Multimodal Language Models as Retail User Simulators

cs.AIcs.HC

核心問題

多模態大型語言模型如何有效模擬零售情境中具備人格特徵的顧客行為？

方法亮點

提出SalesSim框架和測試平台，將用戶模擬視為一個基於代理的、有目標的決策過程，而非僅是表面對話生成。MLLM被訓練來模擬具有不同背景、偏好和決策障礙的購物者，與銷售代理進行多輪、多模態、工具增強的互動。

心理學意涵

這項研究將LLM作為複雜人類行為（如購物決策）的模擬器，為心理學研究提供了一個強大的實驗工具，可用於探討消費心理、說服策略和人機互動中的決策偏差。透過模擬不同人格特徵的顧客，可以深入理解個體差異如何影響互動結果，並為設計更具同理心和有效性的AI銷售助理提供實證基礎。同時，這也引發了關於AI模擬人類行為的倫理問題，例如是否會被用於操縱消費者。

LLM化身為虛擬顧客，精準模擬人類購物心理，為商業與心理學研究開啟新篇章。

→ 閱讀原文arXiv

LLM × 心理學 No.02

Effective Explanations Support Planning Under Uncertainty

cs.AIcs.HC

核心問題

有效的解釋如何幫助人類在不確定性下進行規劃？

方法亮點

提出一個計算模型，將自然語言解釋轉化為行動計畫：大型語言模型將解釋翻譯成程式化的指導（策略先驗和價值圖），然後規劃代理在部分可觀察的環境中執行。透過路徑效率和可靠性來評分解釋，並懲罰重新規劃。

心理學意涵

這項研究深入探討了AI生成解釋對人類認知規劃的影響，揭示了清晰、結構化的解釋如何降低認知負荷、提升決策效率。它為心理學中關於「解釋性推理」和「心智模型」的理論提供了計算模型支持，並指出AI在輔助人類複雜決策（如醫療診斷、災害應變）中的巨大潛力。同時，也提醒我們AI解釋的品質直接影響人類的行為結果，強調解釋設計的重要性。

AI解釋不再只是說說而已，它能實質引導人類規劃，讓決策更有效率。

→ 閱讀原文arXiv

LLM × 心理學 No.03

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

cs.CLcs.CY

核心問題

大型語言模型能否在法官級別的法律任務中，有效權衡主張、應用學說並做出有根據的判決？

方法亮點

引入Magis-Bench基準測試，該測試包含74個來自巴西司法職位競爭性考試的法官級別寫作任務問題。這些任務要求LLM不僅生成法律論證，還要評估相互競爭的主張、將法律學說應用於事實，並做出有理由的判決。

心理學意涵

這項研究將LLM的評估推向了高度複雜且需要專業判斷的法律領域，挑戰了AI在認知決策和道德推理方面的極限。它對心理學中關於「專業判斷」、「道德推理」和「決策偏差」的理論研究具有重要意義，探討AI能否模仿甚至超越人類在複雜情境下的判斷能力。這也引發了關於AI在司法系統中角色、信任度以及潛在偏見的倫理和社會心理學討論。

LLM挑戰法官權威，法律判斷能力直逼人類，開啟司法AI新紀元。

→ 閱讀原文arXiv

04 / Prompt Engineering × 心理學精選 TOP 3 PROMPT ENG × PSYCHOLOGY

Prompt × 心理學 No.01

Spatial Priming Outperforms Semantic Prompting: A Grid-Based Approach to Improving LLM Accuracy on Chart Data Extraction

cs.CL

Prompt 技術

空間啟動 (Spatial Priming)：透過提供低層次的網格座標或空間提示，引導LLM更精確地理解圖表數據的空間佈局和相對位置。相較於語義啟動 (Semantic Prompting)，它更側重於提供具體的空間結構信息，而非高層次的語義描述。

心理學概念

啟動效應 (Priming Effect)：指先前接觸的刺激會影響後續刺激的處理。在此研究中，空間啟動透過提供視覺空間線索，預先活化LLM處理空間資訊的能力，使其在圖表數據提取任務中表現更佳。這也涉及認知負荷 (Cognitive Load)，因為低層次、精確的空間提示可能比模糊的語義提示更能有效引導模型，減少其在理解圖表結構上的認知負擔。

應用場景

當前應用於科學圖表數據的自動提取，對於大規模文獻分析至關重要。未來潛力在於提升LLM在處理各種視覺空間資訊（如地圖、設計圖、醫學影像）時的精確度。對心理學實務的啟發是，在設計人機互動介面或AI輔助工具時，提供具體、低層次的空間或結構性提示，可能比抽象的語義提示更能有效引導用戶或AI完成任務，尤其是在需要精確定位和理解空間關係的場景。

空間提示比語義提示更有效，證明LLM也吃「視覺線索」這套。

→ 閱讀原文arXiv

Prompt × 心理學 No.02

Sycamore: Characterizing Synthetic Personas for Evaluating Genomics Visualization Retrieval

cs.HC

Prompt 技術

合成角色 (Synthetic Personas) 生成：利用LLM根據特定領域知識（如基因組學文檔）生成具有代表性的虛擬用戶角色。這些角色被用作評估可視化系統的代理，其生成過程涉及對LLM進行提示，使其扮演特定背景、目標和知識水平的用戶。

心理學概念

用戶模型 (User Models)：在人機互動設計中，用戶模型是設計者對目標用戶的心理表徵，包含其需求、行為、知識等。合成角色是AI生成的一種用戶模型，旨在模擬真實用戶的行為和偏好。這也涉及移情 (Empathy)，透過角色扮演，AI能更好地理解和預測不同用戶群體的需求。

應用場景

當前應用於基因組學等小眾領域的可視化系統評估，解決了領域專家稀缺和用戶招募困難的問題。未來潛力在於將合成角色應用於更廣泛的產品設計、服務測試和用戶研究中，以快速迭代和評估設計方案。對心理學實務的啟發是，AI生成的合成角色可以作為一種新的研究工具，幫助心理學家在不直接接觸真實用戶的情況下，探索不同人格特徵或背景的個體對特定系統或情境的反應，加速用戶體驗和行為研究。

LLM化身虛擬用戶，精準評估專業系統，解決專家稀缺難題。

→ 閱讀原文arXiv

Prompt × 心理學 No.03

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

cs.AI

Prompt 技術

自動評分標準 (Auto-Rubric) 生成作為獎勵信號：這是一種基於RLHF（Reinforcement Learning from Human Feedback）的進階方法。它不直接使用單一標量或成對比較作為獎勵，而是透過提示LLM生成多維度、組成的明確評分標準（rubrics），然後將這些標準作為獎勵信號來引導多模態生成模型的訓練。這使得模型能夠學習更細緻、更符合人類判斷結構的偏好。

心理學概念

人類判斷 (Human Judgment) 與偏好 (Preferences)：人類對生成內容的判斷往往是多維度且具有層次結構的，而非簡單的「好」或「壞」。傳統RLHF將這種複雜判斷簡化為標量獎勵，容易導致「獎勵駭客」。本研究透過生成明確的評分標準，更精確地捕捉了人類判斷的複雜性，減少了認知偏差和模糊性。這也涉及決策制定 (Decision-Making)，因為評分標準的建立本身就是一種決策過程的體現。

應用場景

當前應用於校準多模態生成模型與人類偏好，特別是在需要細緻、多維度評估的內容生成任務中（如圖像、文本、音頻的藝術創作或設計）。未來潛力在於提升AI生成內容的品質和可控性，使其更能滿足人類複雜的審美和功能需求。對心理學實務的啟發是，這種方法可以應用於心理評估工具的開發，例如讓AI生成更具體、更客觀的評估標準來輔助心理諮詢師或教育工作者評估個案或學生的表現，減少主觀判斷的偏差。

AI自動生成評分標準，讓模型更懂人類偏好，告別模糊獎勵。

→ 閱讀原文arXiv