畅想·畅谈 | 李丹:智慧图书馆人工智能的应用创新与风险防控研究
发布时间:2025-05-14
前言
前言
智慧图书馆融合了智能技术和智能用户,催生了新型服务形态,是公共图书馆发展的着力点之一。人工智能在智慧图书馆建设中应用广泛,有望实现跨越式发展,但人工智能与许多新涌现的技术类似,是一把双刃剑,在应用过程中产生了诸多风险。应审慎考量人工智能在智慧图书馆中的应用,发挥积极作用,管控安全风险。
一、生成式人工智能在图书馆中的应用创新
生成式人工智能(AIGC)基于训练数据,进行识别和分类,生成全新数据,可用于文本、图像、音视频各种表现形式。其技术核心主要包括生成对抗网络(GANs)、变分自编码器(VAEs)和自回归模型,不断训练和优化,根据需求生成序列数据。利用人工智能技术,智慧图书馆在许多方面可以较大提高工作效率,从已有实践来看,主要涉及文本生成、图像生成、音频生成、视频生成等领域。
1.1 智能化馆藏与借阅
公共图书馆海量的文献数据,可通过智能算法实现高效管理,有利于盘活文献资源,并节省人力。如传统的荐书方式多采用名家推荐、主题推荐等形式,针对读者个人的个性化推荐难以实现。智慧图书馆通过分析读者在线上线下留下的行为数据,如书目浏览、书目检索、作者检索等信息,结合大数据,生成个性化的书单推荐,打开读者的接触面,或可使读者找到更适合自己的读物。如北京大学图书馆利用生成对抗网络技术(GANs),基于用户数据提供个性化推荐。也有图书馆尝试结合用户的社交媒体数据,提高推荐书目的精准度。哈佛大学图书馆基于学生和教职工的学术研究数据和借阅数据,利用人工智能技术推荐相关的学术资料,使研究者更快找到所需要的文献。
1.2 数据挖掘与知识图谱
人工智能技术大幅革新图书馆知识服务形态。智慧图书馆将文献资料进行动态整合,如抽取主题词、作者、地域等信息,利用人工智能技术形成相互联系的交叉网络,从而将知识图谱可视化。已有高校图书馆基于学术数据库,通过处理元数据建构知识节点,为师生学术研究服务,有利于学科间的交叉研究。上海图书馆引入人工智能系统,深度分析文献内容,自动生成文献的摘要,自动翻译外语文献,也提高了研究者的阅读效率。
1.3 古籍的活化利用
人工智能技术也适用于古籍的数字化处理。首先通过OCR技术将文献处理为电子文本,其次提取人、地、物等元数据,方便管理者调取数据、建立档案。另外,利用人工智能的自然语言处理技术,可系统实现文字识别、断章断句、自动翻译等功能,降低了读者阅读古籍的门槛。古籍卷帙浩繁,人工智能识别和断句并不能做到百分百准确,但客观上节省了人力物力,值得尝试和发展。也有高校图书馆、公共图书馆和互联网技术公司合作,基于人工智能技术推出古籍数字化阅读平台,成为古籍研究者的日常使用工具。
1.4 虚拟讲解和智能问答
基于公共图书馆的海量数据,可通过自然语言处理和生成式技术,生成语音乃至图像为用户提供即时交互服务,即聊天机器人。基础服务如书目检索和借阅,并根据用户的提问,抽取文献相关信息,进行深度问答。已有高校图书馆推出AI馆员,通过文字和语音形式,接受读者的咨询,AI馆员已能实现拟人化表达,进行个性书籍推荐,回答深度问题。这一形式革新了图书借阅的传统机械方式,有望实现智能推荐、智能借阅、智能馆藏,是公共图书馆值得探索建设的方向。
二、智慧图书馆应用人工智能的安全风险
智慧图书馆应用人工智能虽然带来了极大的便利,提高了智能化程度,但是也带来了诸多风险。引入AI技术,必然在人机交互过程中产生信息风险,由此也产生了管理和社会方面的风险,需要从业者密切关注。
2.1 技术失控 人工智能模型客观上面临着失控威胁。攻击者可通过技术手段窃取模型中的文献数据,或替换数据污染模型,导致人工智能不工作或给出错误的反馈。很多原因都可导致AI失控,如算法漏洞、软硬件故障、外部攻击。AI模型失控可能导致智慧图书馆彻底瘫痪,产生严重的系统故障,或为用户带来完全错误的服务。南京图书馆2024年上半年遭受数百万次网络攻击,可用骇人听闻形容。如果防护不当可能泄露用户信息,造成不良的社会影响,甚至产生法律风险。另外,很多图书馆开放了API接口提供人工智能服务,但这些接口可能被恶意利用,通过技术手段抓取图书馆文献数据和用户数据。所以,智慧图书馆应用人工智能,从一开始就应该做好准备工作,防止技术失控。 2.2 技术偏差 生成式人工智能仍是根据训练数据给出反馈的工作原理,所以如果数据出现偏差,结果必然也出现偏差,这是无可避免的。输入AI模型的训练数据,难免存在样本量少、代表性差的问题,导致训练结果出现显而易见的偏差,如训练AI模型处理古籍文献,输入的数据唐诗偏多、宋词偏少,那此模型必然擅于处理唐诗文献,处理宋词可能错误偏多。而问题的关键在于即便样本足够多,算法足够复杂,可能依然存在数据相对集中的情况,导致偏差依旧存在,人们可能无法辨别,接受了错误结果。另外,人工智能在结合用户个体数据提供服务的同时,可能存在算法偏见的情况,如AI模型发现用户受教育程度高,推荐深度读物,发现用户文化水平低,推荐轻松读物,这是很有可能发生的情况。但是文化水平相对较低的用户,如果有认真学习的意愿呢?难道只应该读轻松读物吗?算法偏见指的便是此类状况,对不同群体的判定可能是无法确定的。公共图书馆追求“数字公平”,这显然是应该尽力规避的情况。 2.3 数据安全 智慧图书馆人工智能的应用实践,有赖于大量的文献数据和用户数据。然而在应用用户数据的过程中,可能出现被攻击窃取的情况,因此,图书馆必须采取严密的措施,保护用户的数据安全。提供个性化服务,必然涉及用户的敏感信息,用户信息被不法分子觊觎,随之产生数据安全、网络安全、公共安全等多个方面的威胁。当前主要从数据收集、数据存储、数据处理三个阶段研究数据安全防护,公共图书馆应装备防护手段,杜绝数据泄露现象。 2.4 版权问题 智慧图书馆基于人工智能生成的文本和图像,可能使用了受版权保护的作品,从而产生了版权问题。然而,人工智能尚在快速发展的阶段,这方面学界也在讨论,主要集中在两方面,一是人工智能生成内容的版权归属,二是人工智能对训练数据的合理使用。有学者认为AI不具备法律主体资格,因此其作品不受法律保护;也有学者认为只要作品具备独创性,便应受版权保护。而在AI模型训练的过程中,如果输入大量受版权保护的作品,其产出的作品一般认定为侵权。对智慧图书馆来说,其利用人工智能技术生成的文献摘要和文献概括信息是否侵权,可能是版权方面最为关心的问题之一。另外,AI模型利用图书馆海量资源进行训练和优化,其产出作品可能图书馆工作人员都无法界定引自何种文献,是否侵权也处于模糊不清状态,更加剧了版权担忧。 2.5 法律风险 近年来人工智能快速发展,在文化领域也产生了诸多道德问题和法律问题。这方面,我国出台了《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》《中华人民共和国计算机信息系统安全保护条例》《中华人民共和国著作权法》等法律法规,保障了公民的数据安全,打击了虚假信息,但是仍然不能彻底解决人工智能应用于智慧图书馆产生的新问题,如用户数据的使用与保护,版权界定与划分等。在尚不完善的法律框架下,使用AI作品无法确定底线在哪里,始终掣肘人工智能的发展。另外,也应谨防AI技术沦为谋取不正当利益的工具,在撰写论文、编写代码等领域AI技术被大范围使用,这在学术研究上违背了原创原则,甚至虚构论据得出错误结论,催生学术造假,应予以坚决打击。 2.6 情感缺失 虽然人工智能不乏拟人化的表现,但终究不能和真人相比,缺乏真情实感,智慧图书馆应用人工智能,可能产生情感缺失的情况,即用户长期与AI机器沟通,产生情感上的断裂感。图书馆本身应展现人文关怀,与读者产生精神连接,但AI无法取代真人馆员的亲和力和关怀感,长此以往,不利于图书馆助力构建和谐社会。另外,随着人工智能承担越来越多的工作,图书馆的人工需求可能也趋于降低,进一步导致情感缺失的问题。如果图书馆馆员难以胜任使用AI工具的工作,也将产生职业恐慌,不利于图书馆的人才队伍建设。
三、智慧图书馆应用人工智能的风险防控
3.1 设备维护 人工智能通过软硬件设备服务用户,图书馆需要较高的安全性,因此部署安全可靠的软硬件设备尤为重要。首先,要设置先进的防火墙,配备入侵检测系统,对流入和流出的数据包实时监测,及时发现和阻断攻击行为。其次,技术人员要定期对防护系统进行更新与优化,防范层出不穷的网络攻击。最后,要及时更新设备,防止设备老化导致隐患爆发。这方面要求图书馆网络技术人员具备高水平的专业知识,并做好日常的维护工作。 3.2 数据加密 智慧图书馆挖掘和获取数据,存储和流通数据,需要数字应用系统来统一处理。数据按其类型又可分为用户数据、开放数据、保密数据等。有来自自然人输入的数据,也有人工智能识别挖掘的数据。整个数据系统应做到安全可靠,该备份的备份,该加密的加密。图书馆可采用对称加密算法来保护数据,及时更新安全协议,确保端对端的安全传输。针对需要严密保护的数据,采用哈希算法加密,定期更换密钥,建立严密的密钥管理系统。智慧图书馆数据系统是相当复杂的系统工程,涉及多种算法,连通多个平台,系统建成后也要注意防护,设计多级别认证程序,防止数据泄露。 3.3 改善算法 人工智能三大驱动力,为算法、数据和算力。智慧图书馆应用人工智能,保障了足够的算力和安全的数据,算法的重要性也显现了出来。算法自带偏见,难以根除,复杂算法下容易形成黑箱,用户无从判断,引起错误结论或者歧视性结果。人工智能处理自然语言时,语义分析算法包含了意图识别、模糊关联和推理判断等功能,另外,在深度学习中,神经网络算法具备分布式并行计算和多层深度反馈调整等特点,这些过程造就了复杂的算法,与此同时,也完成了深度理解和分析数据、个性化推荐等工作。但归根到底,人工智能只是工具,用户应享受“数字公平”,剥离算法带来的偏见和歧视。首先,应谨慎调试,提高算法的容错能力;其次,尽量加快AI模型研发的标准化,防止更多的算法偏见出现;最后,进行多次的测试和实验,尽力避免算法本身带来的负面影响。 3.4 遵法守法 随着人工智能技术在全球的不断深入,由此带来的风险事件也频频发生。2020年,美国发布《人工智能应用管理指南》,欧盟也在2024年通过《人工智能法案》。同一时期,我国鲜明地表达了对于人工智能新技术的态度,“最大限度减少事前准入限制,加强事中事后监管”,并在2022年发布《互联网信息服务深度合成管理规定》,次年施行《生成式人工智能服务管理暂行办法》,对生成式人工智能从算法设计到法律责任都给出了相关管理规定,并展现了支持和鼓励的态度。公共图书馆应认真学习我国相关法律法规,关注世界发展趋势,制定出符合实际情况的行业规范,保证智慧图书馆应用人工智能高效、安全、可控。 3.5 密切监管 应用人工智能技术的日常工作中,应记录安全日志,定期分析审计。建立安全管理系统,集中分析敏感的事件或数据,识别异常行为,争取提前发现威胁。同时联合专业的信息安全机构,定期对安全系统进行测试和维护,及时修复漏洞,消除安全隐患。另外,许多公共图书馆有人工智能服务供应商,提供人工智能产品。在其产品上架之前,也应联合信息安全机构全面检查人工智能应用产品,从数据、算法到备案、证书,全方位评估安全性、合法性。另外,图书馆还可以在馆内举办安全讲座,提醒读者重视人工智能技术的安全问题,建立反馈机制,收取读者反馈的信息安全问题。
结语
智慧图书馆应用人工智能技术,在带来智能化和便利性的同时,也产生了一些安全风险。本文通过分析人工智能技术在智慧图书馆的实际应用以及由此带来的安全风险,为从业人员提供了一系列防控建议。人工智能技术还在快速发展的进程中,应密切关注最新趋势,应用到智慧图书馆的建设中来,助力社会精神文明建设。