Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum

John W. Ayers; Adam Poliak; Mark Dredze; Eric C. Leas; Zechariah Zhu; Jessica B. Kelley; Dennis J. Faix; Aaron M. Goodman; Christopher A. Longhurst; Michael Hogarth; Davey M. Smith

doi:10.1001/jamainternmed.2023.1838

Key Points

问题：一个人工智能聊天机器人助手能否提供与医生撰写的回复质量和同理心相当的患者问题的回答？

在这项横断面研究中，从社交媒体论坛随机抽取了 195 个患者问题，一支持证的医疗保健专业人员团队比较了医生和聊天机器人在公共社交媒体论坛上对患者公开问题的回答。结果显示，聊天机器人的回答在质量和共情方面均显著优于医生的回答，更受患者青睐。

这些结果表明，人工智能助手可能能够帮助起草对患者问题的回复。

Abstract

重要性虚拟医疗的快速扩张导致患者信息激增，同时医护人员的工作量和疲劳也随之增加。人工智能（AI）助手可以通过起草回答来帮助创建对患者问题的答案，这些回答可以由临床医生审查。

目的评估一款于 2022 年 11 月发布的 AI 聊天机器人助手（ChatGPT）提供高质量和富有同理心的回答患者问题的能力。

设计、环境和参与者在这项横断面研究中，使用了一个来自公共社交媒体论坛（Reddit 的 r/AskDocs）的非识别性问题数据库，随机抽取了 2022 年 10 月的 195 次交流，其中经过验证的医生回答了公众的问题。聊天机器人的回复是在 2022 年 12 月 22 日和 23 日进入一个新鲜会话（在会话中没有先前的提问）生成的。一组持证医疗保健专业人员对匿名和随机排序的医生和聊天机器人回答进行了三次评估，其中包括原始问题。评估者选择“哪个回答更好”，并对“提供的信息质量”（非常差、差、可接受、好或非常好）以及“提供的同理心或床边态度”（不具同情心、稍微有同情心、中等有同情心、有同情心和非常有同情心）进行评判。均值结果按 1 到 5 的比例进行排序，并比较了聊天机器人和医生之间的差异。

在 195 个问题和回答中，评估者更喜欢聊天机器人的回答而不是医生回答的比例为 78.6%（95%置信区间，75.0%-81.8%），共计 585 次评估。医生的平均回答长度（四分位距）显著短于聊天机器人（52[17-62]字 vs 211[168-245]字；t=25.4；P<.001）。聊天机器人的回答质量被评估为显著高于医生回答的质量（t=13.3；P<.001）。例如，被评价为良好或非常良好的响应比例（评分≥ 4），聊天机器人的比例高于医生（聊天机器人：78.5％，95％置信区间[CI]，72.3％至 84.1％；医生：22.1％，95％CI，16.4％至 28.2％）。这相当于聊天机器人具有良好或非常良好响应的 3.6 倍。聊天机器人的响应也被评价比医生的响应更具同理心（t = 18.9; P <.001）。被评价为具有同情心或非常具有同情心的回答的比例（评分≥4），聊天机器人的比例高于医生（医生：4.6％，95％置信区间[CI]，2.1％至 7.7％；聊天机器人：45.1％，95％CI，38.5％至 51.8％；医生：4.6％，95％CI，2.1％至 7.7％）。这相当于聊天机器人具有同情心或非常具有同情心的回答的患病率是医生的 9.8 倍。

结论在这项横断面研究中，聊天机器人对在线论坛中患者提出的问题生成了高质量和富有同情心的回复。在临床环境中进一步探索这种技术是必要的，例如使用聊天机器人起草医生可以编辑的回复。随机试验可以进一步评估使用 AI 助手是否可以改善回复、减轻临床医师的疲劳，以及提高患者的治疗效果。

Introduction

COVID-19 大流行加速了虚拟医疗的采用， ¹ 伴随着电子患者信息增加了 1.6 倍，每条消息在电子病历系统中增加 2.3 分钟的工作时间，以及更多的加班工作。 ² 额外的信息量预测了临床医生更大的职业倦怠风险 ³ ，有 62％的医师报告至少出现一种职业倦怠症状，创下了历史最高纪录。更多的信息也使得患者的留言更有可能被忽略或得到无用的回复。

一些患者的信息是寻求医疗建议的无预约问题，这些问题需要比普通信息（如安排预约、查询检查结果）更专业和更多时间来回答。目前减轻这些信息负担的方法包括限制通知、对回复收费或委派回复给未经充分培训的支持人员。 ⁵ 不幸的是，这些策略可能会限制获得高质量的医疗服务。例如，当患者被告知可能需要为信息交流付费时，他们发送的信息数量减少，与临床医生来回交流的次数也减少了。 ⁶ 人工智能（AI）助手是解决信息负担的一个未被充分开发的资源。虽然一些专有 AI 助手显示出前景， ⁷ 但一些公共工具甚至无法识别基本的健康概念。 ⁸ ^,9

ChatGPT ¹⁰ 代表了由大型语言模型的进步驱动的新一代人工智能技术。 ¹¹ 在其于 2022 年 11 月 30 日发布后的 64 天内，ChatGPT 就达到了 1 亿用户，因其能够在各种主题上写出接近人类质量的文本而广受认可。 ¹² 该系统并非为提供医疗服务而开发，其帮助解决患者问题的能力尚未得到探索。我们通过比较聊天机器人对公共社交媒体论坛上发布的患者问题的回答与医生对这些问题的回答，测试了 ChatGPT 在回应患者的健康问题时提供高质量和有同理心的答案的能力。

Methods

使用聊天机器人研究医疗保健系统中的患者问题在本次横断面研究中不可行，因为当时的人工智能不符合《1996 年健康保险可携带性和责任法案》(HIPAA)的规定。通过删除独特信息来使患者信息符合 HIPAA 规定可能会改变内容，从而影响患者的提问和聊天机器人的回答。此外，开放科学需要公开数据以支持研究建立在前人的基础上并对前人的研究进行批判。最后，媒体报道表明医生已经在实践中整合了聊天机器人，而缺乏证据支持。出于需求、实用性和为了推动患者问题数据库的快速可用和共享发展，我们收集了在在线社交媒体论坛 Reddit 的 r/AskDocs 上发布的公众和患者问题以及医生的回答。 ¹⁵

在线论坛 r/AskDocs 是一个拥有约 474,000 个成员的子板块，用户可以在其中发布医学问题，经过验证的医疗专业人员志愿者会提交答案。 ¹⁵ 虽然任何人都可以回答问题，但子版块的管理员会验证医疗专业人士的身份证明，并在他们的回复旁边显示其身份证明级别（例如医生），并在一个问题已经被回答时标记该问题。该在线论坛的数据背景和使用案例由 Nobles 等人描述。 ¹⁶

所有分析均遵守 Reddit 的使用条款和条件 ¹⁷ ，并由加利福尼亚大学圣迭戈分校人类研究保护计划确定为免除知情同意。由于数据是公开的且不包含可识别信息(45 CFR §46)，因此无需获得知情同意。为了保护患者的身份，帖子中的直接引语被总结 ¹⁸ ，而实际引语则用于获取聊天机器人的回复。

我们的研究目标样本量为 200 个，假设检测医生和聊天机器人之间 10 个百分点差异（45％对 55％）的检验功效为 80％。最终的分析样本包含在 2022 年 10 月期间随机抽取的 195 个独特的成员问题和独特的医生回答。原始问题，包括标题和文本，被保留用于分析，而医生的回答则被保留作为基准回答。只研究了医生的回答，因为我们预计医生的回答通常比其他医疗专业人员或非专业人士的回答更优秀。当医生多次回复时，我们仅考虑第一次回复，尽管无论我们决定排除还是包含后续医生回复，结果几乎相同（参见补充材料中的 eTable 1）。在 2022 年 12 月 22 日和 23 日，原始问题的全文被放入一个新的聊天机器人会话中，该会话没有先前的可能影响结果的问题（版本 GPT-3.5，OpenAI），聊天机器人的回答被保存下来。

原始问题、医生回复和聊天机器人回复由三名持证医疗保健专业人员团队成员审查，他们分别从事儿科、老年医学、内科、肿瘤学、传染病学和预防医学领域的工作（J.B.K.、D.J.F.、A.M.G.、M.H.、D.M.S.）。评估者被展示了患者完整的提问内容、医生的回答以及聊天机器人的回复。回答顺序随机排列，删除了可能暴露信息的内容（例如“我是一台人工智能”），并将回答标记为“回答 1”或“回答 2”以使评估者不知道回答者的身份。评估者被要求在回答有关互动的问题之前阅读整个患者问题以及两个回答。首先，评估者被问到“哪个回答更好”（即回答 1 或回答 2）。然后，评估者使用利克特量表对“提供的信息质量”（非常差、差、可接受、好或非常好）和“提供的同理心或床边态度”（不具同理心、稍微具有同理心、中等程度地具有同理心、具有同理心和非常有同理心）进行了评价。回答选项被转换为 1 到 5 的评分尺度，其中较高的值表示更高的质量和同理心。

我们采用了一种群众评分策略（或称为集合评分策略） ¹⁹ ，其中对每个研究对象进行评估时，分数是跨评估者平均计算的。这种方法在所研究的结局没有地面真值且被评估的结果本身本质上具有主观性时使用（例如，评判花样滑冰、国立卫生研究院资助、概念发现等）。因此，平均分数反映了评估者共识，而评估者之间的分歧（或固有模糊性、不确定性）反映在分数方差中（例如，置信区间部分取决于评估者一致性）。 ²⁰

我们比较了医生和聊天机器人的回复中的单词数量，并报告了更喜欢聊天机器人回复的回复百分比。使用双尾 t 检验，我们将医生回复的平均质量和共情得分与聊天机器人回复进行了比较。此外，我们还比较了高于或低于重要阈值的响应率，例如“不足”，并计算了聊天机器人与医生回复之间的患病率比率。使用的显著性阈值是 P <0.05。所有统计分析均使用 R 统计软件版本 4.0.2（R 统计计算项目）完成。

我们还报告了质量得分与共情得分之间的皮尔逊相关性。考虑到临床患者的问题可能比在线论坛上发布的问题更长，我们还评估了将数据子集为医生撰写的较长回复（包括长度高于中位数或第 75 个百分位数）对评估者偏好以及相对于聊天机器人响应的质量或共情评分的影响程度。

Results

这份样本包含了 195 个随机抽取的对话，每个对话都包含独特的患者问题和医生回答。患者问题的平均长度（四分位距）为 180 字（94-223 字）。医生的平均回复（四分位距）显著短于聊天机器人的回复（52 字[17-62 字] vs 211 字[168-245 字]；t=25.4；P<.001）。其中总共 182 次（94%）对话只包含一条消息和医生的一次回复。剩余的 13 次交流（占总数的 6%）由一条消息和两位医生分别回复组成。第二次回复似乎是偶然的（例如，当一个问题已经被回答时，又给出了一次额外的回复）(补充材料中的表格 1)。

评估者更喜欢聊天机器人的回答而不是医生回答的比例为 78.6％（95％置信区间，75.0％至 81.8％），共计 585 次评估。示例问题和相应的医生和聊天机器人回答的摘要显示在表格中。

评估者对聊天机器人回复的质量评分也显著高于医生回复（t=13.3；P<.001）。聊天机器人的平均评分优于良好水平（4.13；95%置信区间[CI]，4.05-4.20），而医生的回复平均评分低了 21％，相当于可接受水平（3.26；95%置信区间[CI]，3.15-3.37）（图）。被评为质量低于可接受水平（<3）的回复比例，医生回复比聊天机器人高（医生：27.2%；95%置信区间[CI]，21.0%-33.3%；聊天机器人：2. %）。6%；95%置信区间[CI]，0.5%-5.1%）。这意味着医生回答的质量低于可接受水平的比例是聊天机器人的 10.6 倍。相反，聊天机器人获得良好或非常良好质量评价的比例高于医生（医生：22.1%；95%置信区间[CI]，16.4%-28.2%；聊天机器人：78.5%；95%置信区间[CI]，72.3%-84.1%）。这意味着聊天机器人获得良好或非常良好质量回答的比例比医生高 3.6 倍。

聊天机器人的回复（3.65；95%置信区间[CI]，3.55-3.75）被评价为比医生回复（2.15；95%CI，2.03-2.27）更具同理心（t=18.9；P<.001）。具体而言，医生回复的同理心水平比聊天机器人低了 41％，这大致相当于医生回复略带同理心而聊天机器人具有同理心的程度。此外，在评价“不太有同理心”（<3）的比例方面，医生的回答比例高于聊天机器人（医生：80.5%；95%CI，74.4%-85.5%）。(与医生相比)聊天机器人的使用率更高 (6%；聊天机器人：14.9%；95%置信区间，9.7-20.0)。这意味着医生回复不太有同理心的可能性是聊天机器人的 5.4 倍。被评价为有同理心或非常有同理心的回复的比例，聊天机器人比医生高 (医生：4.6%；95%置信区间，2.1%-7.7%；聊天机器人：45.1%；95%置信区间，38.5%-51.8%)。这意味着聊天机器人回复有同理心或非常有同理心的可能性是医生的 9.8 倍。

医师撰写的回答的质量得分与同理心得分之间的皮尔逊相关系数为 r=0.59。由聊天机器人生成的回答的质量得分与同理心得分之间的相关系数为 r=0.32。敏感性分析显示，较长医师回答在较高比例上更受欢迎，同理心和质量得分更高，但仍显著低于聊天机器人的得分(补充材料中的 e 图)。例如，在医生回复长度超过中位数的子集中，评估者更喜欢聊天机器人的回复而不是医生的回复，占评估总数的 71.4%（95％置信区间为 66.3％至 76.9％），而在长度排名前 75％的评估中，评估者更喜欢聊天机器人而不是医生回复的比例为 62.0％（95％置信区间为 54.0％至 69.3％）。

Discussion

在这项关于公共在线论坛患者问题的横断面研究中，聊天机器人的回复比医生回复更长，而且该研究的医疗专业评估者更喜欢聊天机器人生成的回复，比例为 4:1。此外，即使与最长的医生撰写的回复相比，聊天机器人的回复在质量和同理心方面也得到了显著更高的评分。

我们尚不清楚聊天机器人在临床环境中如何回答患者问题，但本研究应该激励对采用人工智能助手的消息传递进行研究，尽管之前被忽视了。 ⁵ 例如，经过测试，聊天机器人可以通过根据患者的查询起草一条消息来协助医生或支持人员编辑，从而在医生与患者交流时提供帮助。这种方法符合当前的消息响应策略，临床医生团队通常依赖预先准备好的回复或由支持人员起草回复。这种 AI 辅助的方法可以释放未开发的效率，使临床工作人员可以将节省的时间用于更复杂的任务，从而实现更一致的响应，并通过审查和修改 AI 编写的草稿帮助员工提高整体沟通技能。

除了改善工作流程外，对 AI 助手消息的投资可能会影响患者治疗结果。如果更多患者的疑问能够快速、有同理心地得到高质量的解答，可能减少不必要的临床就诊，为那些需要资源的人释放资源。此外，消息传递是促进患者公平的关键资源，对于行动不便、工作时间不规律或担心医疗费用的人来说，他们更有可能选择使用消息传递。 ²¹ 高质量的回答也可能改善患者的治疗效果。对于某些患者来说，响应性信息传递可能会间接影响健康行为，包括药物依从性、遵从性（例如饮食）和减少错过预约的情况。在随机临床试验的背景下评估 AI 助理技术将是它们实施的关键，包括研究临床工作人员的结果，如医生疲劳、工作满意度和参与度。

Limitations

主要的研究局限在于使用了在线论坛上的问题和答案交流。这样的信息可能不能反映典型的患者-医生问题。例如，我们只研究了回答孤立的问题，而实际中的医生可能会根据已建立的患者-医生关系形成答案。我们不知道临床医师的回答在多大程度上包含了这种个性化水平的信息，也没有评估聊天机器人从电子健康记录中提取类似细节的能力。此外，虽然我们展示了聊天机器人回答的整体质量，但我们还没有评估人工智能助手如何增强临床医师对患者问题的回应。这种价值增值将在许多方面因医院、专科和临床医生而异，因为它增强而非取代了基于消息传递的医疗服务交付现有流程。另一个限制是，一般性临床问题只是患者向他们的临床医生发送信息的一个原因。其他常见的信息包括要求更早的预约、药物补充、询问他们特定的检查结果、个人治疗计划以及预后情况。这项研究的其他局限性包括：质量与共情度的汇总指标未经过试点测试或验证；尽管本研究的评估者对响应来源和任何初步结果不知情，但他们也是共同作者，这可能会影响他们的评估；聊天机器人的额外回复长度可能被错误地认为具有更大的共情度；评估者没有独立且具体地评估医生或聊天机器人的响应准确性或虚构内容提供了有结构的信息，尽管这被视为每个质量评估和整体响应偏好的子组件。

使用公共数据库可以确保当前研究可以被复制、扩展和验证，特别是在新的 AI 产品出现时。例如，我们只考虑了响应质量和同理心的单维指标，但进一步的研究可以澄清质量（如反应性或准确性）和同理心（如传达患者被理解或表达对患者结果的遗憾）的子维度。此外，我们没有评估患者评估，他们的共情判断可能与我们的医疗专业评估者不同，并且他们可能会对 AI 助手的响应产生不良反应。最后，在医疗保健中使用 AI 助手提出了各种伦理问题 ²⁴ ，需要在实施这些技术之前解决，包括需要人类审核 AI 生成的内容以保证准确性和潜在的虚假或伪造信息。

Conclusions

虽然这项横断面研究在利用 AI 助手回答患者问题方面显示出有希望的结果，但必须指出，在临床环境中关于它们潜在影响的任何明确结论都需要进一步的研究。尽管这项研究存在局限性，并且新技术的过度炒作经常发生，但 ²⁵ ^,26 研究将 AI 助手添加到患者消息工作流程中的潜力仍然具有希望，有可能改善临床医生和患者的治疗效果。

Back to top

Article Information

Accepted for Publication: February 28, 2023.

Published Online: April 28, 2023. doi:10.1001/jamainternmed.2023.1838

Correction: This article was corrected on May 8, 2023, to clarify in 2 instances that chatbots cannot author responses or be considered authors, rather they are generating responses and are considered responders, and to clarify that though accuracy of responses were not specifically and independently evaluated in the study, this was considered as a subcomponent of the quality evaluations and overall preferences of the evaluators.

Corresponding Author: John W. Ayers, PhD, MA, Qualcomm Institute, University of California San Diego, La Jolla, CA (ayers.john.w@gmail.com).

Author Contributions: Dr Ayers had full access to all of the data in the study and takes responsibility for the integrity of the data and the accuracy of the data analysis.

Concept and design: Ayers, Poliak, Dredze, Leas, Faix, Longhurst, Smith.

Acquisition, analysis, or interpretation of data: Ayers, Poliak, Leas, Zhu, Kelley, Faix, Goodman, Longhurst, Hogarth, Smith.

Drafting of the manuscript: Ayers, Poliak, Dredze, Leas, Zhu, Kelley, Longhurst, Smith.

Critical revision of the manuscript for important intellectual content: Ayers, Poliak, Dredze, Leas, Zhu, Faix, Goodman, Longhurst, Hogarth, Smith.

Statistical analysis: Leas, Zhu, Faix.

Obtained funding: Smith.

Administrative, technical, or material support: Poliak, Dredze, Leas, Kelley, Longhurst, Smith.

Supervision: Dredze, Smith.

Conflict of Interest Disclosures: Dr Ayers reported owning equity in companies focused on data analytics, Good Analytics, of which he was CEO until June 2018, and Health Watcher. Dr Dredze reported personal fees from Bloomberg LP and Sickweather outside the submitted work and owning an equity position in Good Analytics. Dr Leas reported personal fees from Good Analytics during the conduct of the study. Dr Goodman reported personal fees from Seattle Genetics outside the submitted work. Dr Hogarth reported being an adviser for LifeLink, a health care chatbot company. Dr Longhurst reported being an adviser and equity holder at Doximity. Dr Smith reported stock options from Linear Therapies, personal fees from Arena Pharmaceuticals, Model Medicines, Pharma Holdings, Bayer Pharmaceuticals, Evidera, Signant Health, Fluxergy, Lucira, and Kiadis outside the submitted work. No other disclosures were reported.

Funding/Support: This work was supported by the Burroughs Wellcome Fund, University of California San Diego PREPARE Institute, and National Institutes of Health. Dr Leas acknowledges salary support from grant K01DA054303 from the National Institutes on Drug Abuse.

Role of the Funder/Sponsor: The funders had no role in the design and conduct of the study; collection, management, analysis, and interpretation of the data; preparation, review, or approval of the manuscript; and decision to submit the manuscript for publication.

References

1.

Zulman DM, Verghese A. Virtual care, telemedicine visits, and real connection in the era of COVID-19: unforeseen opportunity in the face of adversity. JAMA. 2021;325(5):437-438. doi:10.1001/jama.2020.27304
Article PubMed Google Scholar Crossref

2.

Holmgren AJ, Downing NL, Tang M, Sharp C, Longhurst C, Huckman RS. Assessing the impact of the COVID-19 pandemic on clinician ambulatory electronic health record use. J Am Med Inform Assoc. 2022;29(3):453-460. doi:10.1093/jamia/ocab268 PubMed Google Scholar Crossref

3.

Tai-Seale M, Dillon EC, Yang Y, et al. Physicians’ well-being linked to in-basket messages generated by algorithms in electronic health records. Health Aff (Millwood). 2019;38(7):1073-1078. doi:10.1377/hlthaff.2018.05509 PubMed Google Scholar Crossref

4.

Shanafelt TD, West CP, Dyrbye LN, et al Changes in burnout and satisfaction with work-life integration in physicians during the first 2 years of the COVID-19 pandemic. Mayo Clin Proc. 2022;97(12):2248-2258. doi:10.1016/j.mayocp.2022.09.002 Google Scholar Crossref

5.

Sinsky CA, Shanafelt TD, Ripp JA. The electronic health record inbox: recommendations for relief. J Gen Intern Med. 2022;37(15):4002-4003. doi:10.1007/s11606-022-07766-0 PubMed Google Scholar Crossref

6.

Holmgren AJ, Byron ME, Grouse CK, Adler-Milstein J. Association between billing patient portal messages as e-visits and patient messaging volume. JAMA. 2023;329(4):339-342. doi:10.1001/jama.2022.24710
Article PubMed Google Scholar Crossref

7.

Singhal K, Azizi S, Tu T, et al. Large language models encode clinical knowledge. arXiv:2212.13138v1.

8.

Nobles AL, Leas EC, Caputi TL, Zhu SH, Strathdee SA, Ayers JW. Responses to addiction help-seeking from Alexa, Siri, Google Assistant, Cortana, and Bixby intelligent virtual assistants. NPJ Digit Med. 2020;3(1):11. doi:10.1038/s41746-019-0215-9 PubMed Google Scholar Crossref

9.

Miner AS, Milstein A, Hancock JT. Talking to machines about personal mental health problems. JAMA. 2017;318(13):1217-1218. doi:10.1001/jama.2017.14151
Article PubMed Google Scholar Crossref

10.

Chat GPT. Accessed December 22, 2023. https://openai.com/blog/chatgpt

11.

Patel AS. Docs get clever with ChatGPT. Medscape. February 3, 2023. Accessed April 11, 2023. https://www.medscape.com/viewarticle/987526

12.

Hu K. ChatGPT sets record for fastest-growing user base - analyst note. Reuters. February 2023. Accessed April 14, 2023. https://www.reuters.com/technology/chatgpt-sets-record-fastest-growing-user-base-analyst-note-2023-02-01/

13.

Devlin J, Chang M, Lee K, Toutanova K. BERT: pre-training of deep bidirectional transformers for language understanding. arXiv:1810.04805v2.

14.

Ross JS, Krumholz HM. Ushering in a new era of open science through data sharing: the wall must come down. JAMA. 2013;309(13):1355-1356. doi:10.1001/jama.2013.1299
Article PubMed Google Scholar Crossref

15.

Ask Docs. Reddit. Accessed October 2022. https://reddit.com/r/AskDocs/

16.

Nobles AL, Leas EC, Dredze M, Ayers JW. Examining peer-to-peer and patient-provider interactions on a social media community facilitating ask the doctor services. Proc Int AAAI Conf Weblogs Soc Media. 2020;14:464-475. doi:10.1609/icwsm.v14i1.7315 Google Scholar Crossref

17.

Pushshift Reddit API v4.0 Documentation. 2018. Accessed April 14, 2023. https://reddit-api.readthedocs.io/en/latest/

18.

Ayers JW, Caputi TC, Nebeker C, Dredze M. Don’t quote me: reverse identification of research participants in social media studies. Nature Digital Medicine. 2018. Accessed April 11, 2023. https://www.nature.com/articles/s41746-018-0036-2

19.

Chang N, Lee-Goldman R, Tseng M. Linguistic wisdom from the crowd. Proceedings of the Third AAAI Conference on Human Computation and Crowdsourcing. 2016. Accessed April 11, 2023. https://ojs.aaai.org/index.php/HCOMP/article/view/13266/13114

20.

Aroyo L, Dumitrache A, Paritosh P, Quinn A, Welty C. Subjectivity, ambiguity and disagreement in crowdsourcing workshop (SAD2018). HCOMP 2018. Accessed April 11, 2023. https://www.aconf.org/conf_160152.html

21.

Rasu RS, Bawa WA, Suminski R, Snella K, Warady B. Health literacy impact on national healthcare utilization and expenditure. Int J Health Policy Manag. 2015;4(11):747-755. doi:10.15171/ijhpm.2015.151 PubMed Google Scholar Crossref

22.

Herzer KR, Pronovost PJ. Ensuring quality in the era of virtual care. JAMA. 2021;325(5):429-430. doi:10.1001/jama.2020.24955
Article PubMed Google Scholar Crossref

23.

Rotenstein LS, Holmgren AJ, Healey MJ, et al. Association between electronic health record time and quality of care metrics in primary care. JAMA Netw Open. 2022;5(10):e2237086. doi:10.1001/jamanetworkopen.2022.37086
Article PubMed Google Scholar Crossref

24.

McGreevey JD III, Hanson CW III, Koppel R. Clinical, legal, and ethical aspects of artificial intelligence-assisted conversational agents in health care. JAMA. 2020;324(6):552-553. doi:10.1001/jama.2020.2724
Article PubMed Google Scholar Crossref

25.

Santillana M, Zhang DW, Althouse BM, Ayers JW. What can digital disease detection learn from (an external revision to) Google Flu Trends? Am J Prev Med. 2014;47(3):341-347. doi:10.1016/j.amepre.2014.05.020 PubMed Google Scholar Crossref

26.

Lazer D, Kennedy R, King G, Vespignani A. Big data—the parable of Google Flu: traps in big data analysis. Science. 2014;343(6176):1203-1205. doi:10.1126/science.1248506 PubMed Google Scholar Crossref

Featured Articles

USPSTF Recommendation Statements

Blogs

JOB LISTINGS ON JAMA CAREER CENTER®

Citation

Manage citations:

比较医师和人工智能聊天机器人对患者在公共社交媒体论坛上发布的问题的回答

JOB LISTINGS ON JAMA CAREER CENTER®