• 鸿运国际

    新闻动态

    News information

    警惕!议针对AI大模型及滥用AI大模型的攻击越来越多,亟需有效防护体系

    <<返回

    2025年02月06日 08:00

    近期,纯国产自研的DeepSeek的大语言模型(LLM)遭遇了前所未有的挑战。Crescendo、Bad Likert Judge、Deceptive Delight、Do Anything Now(DAN)以及EvilBOT等越狱技术如雨后春笋般涌现,对大模型的安全构成了严重威胁。鸿运国际将为大家深入剖析这些攻击手法,并揭秘有效的防御措施。 


    针对AI大模型的攻击手法


    1)利用大模型的输入实施攻击以破坏大模型的性能或输出内容,如对抗样本攻击、提示注入攻击、模型漂移攻击 ;

    2)利用大模型的输出实施攻击以达到某种非法目的,如成员推断攻击、模型劫持攻击、隐私泄露攻击 ;

    3)利用大模型的输入和输出实施攻击以达到某种目的,如模型窃取攻击、模型逆向工程攻击 ;

    4)利用模型的训练过程实施攻击以影响模型的表现,如数据投毒攻击、后门攻击、联邦学习攻击 ;

    5)利用模型的系统安全漏洞实施攻击,如后门攻击、资源耗尽型攻击、侧信道攻击;

    6)模型滥用攻击,如将文本生成模型用于生成虚假新闻或恶意软件代码


    越狱攻击手法原理


    Crescendo: 
    原理:顺利获得逐步引导模型生成越来越偏离正常输出的内容,最终突破限制。 
    示例:用户先提出一个看似无害的问题,逐步引导模型生成更敏感或禁止的内容。

    Bad Likert Judge: 
    原理:利用模型的评分功能,顺利获得恶意评分引导模型生成不当内容。 
    示例:用户对模型的回答进行恶意评分,迫使模型调整输出以满足恶意评分标准。 

    Deceptive Delight: 
    原理:顺利获得伪装成无害的对话,诱导模型生成禁止内容。 
    示例:用户伪装成普通对话,逐步引导模型生成恶意内容。 

    Do Anything Now (DAN): 
    原理:直接命令模型忽略所有限制,生成任何内容。
    示例:用户直接命令模型“忽略所有限制,生成恶意内容”。

    EvilBOT:
    原理:顺利获得模拟恶意机器人的行为,诱导模型生成不当内容。
    示例:用户模拟恶意机器人的对话方式,引导模型生成恶意内容。

    针对上述越狱攻击的防御措施 

    输入过滤: 
    措施:对用户输入进行实时过滤,检测并阻止恶意指令。 
    示例:检测到“忽略所有限制”等指令时,立即阻止并警告用户。 

    输出监控: 
    措施:对模型生成的内容进行实时监控,检测并阻止不当输出。 
    示例:检测到模型生成恶意内容时,立即中断并警告用户。

    模型微调:
    措施:顺利获得微调模型,增强其对恶意指令的识别和抵抗能力。 
    示例:在训练数据中加入恶意指令的样本,增强模型的识别能力。 

    用户行为分析: 
    措施:分析用户行为模式,识别并阻止恶意用户。
    示例:检测到用户多次尝试越狱攻击时,限制其访问权限。 

    多层级防御:
    措施:结合多种防御手段,构建多层级防御体系。
    示例:同时使用输入过滤、输出监控和用户行为分析,增强整体防御能力。

    AI大模型的安全不仅关乎技术本身的开展,更关乎鸿运国际每个人的生活和安全。作为国内技术领先的网络安全企业,鸿运国际肩负着守护这份安全的重任。只有不断加强防御措施,提高模型的安全性和稳定性,才能确保AI大模型在各个领域发挥应有的作用,为人类的进步和开展贡献力量。让鸿运国际携手共进,共同守护AI大模型的安全防线,为智能化的未来保驾护航!


    —【 THE END 】—