您的位置: 首页> AI模型

LLM的“健忘症”与记忆魔法：一场与AI聊天的奇幻之旅

匿名上传

发布时间:2025-10-14 12:30:02

大家好，我是你们的技术老友FogLetter，在掘金分享过不少前端与AI的碰撞心得。今天，我们来聊聊一个看似简单却暗藏玄机的话题——LLM（大语言模型）的历史管理。别看它名字高大上，其实就像教一个天才婴儿记住昨天晚饭吃了啥一样，充满挑战与乐趣。

第一幕：AI的“金鱼脑”——为什么LLM聊着聊着就忘了你是谁？

想象一下：你走进一家咖啡馆，对服务员说：“我叫小明，来杯美式。”服务员微笑着回应：“好的，小明！” 可下一秒你问：“我叫什么名字？”他却一脸茫然：“呃……新客人吗？” 这场景是不是很荒诞？但LLM的本质就是这样一个“健忘”的服务员。

作为一个在掘金写过AI系列文章的创作者，我最初以为LLM像人类一样能自然记住上下文。结果第一次用OpenAI API时，就被现实打脸了——它居然问我：“你刚才说啥来着？” 原来，LLM的每次对话都是独立的，就像HTTP协议的无状态特性，不会自动保留之前的聊天记录。

来看看这段代码，一个最基础的聊天实现：

async function withMemoryChat(userInput) {
  const res = await client.chat.completions.create({
    model: 'gpt-3.5-turbo',
    messages: [{ role: 'user', content: userInput }] // 只发送当前输入
  });
  return res.choices[0].message.content;
}

当你连续问“我叫什么名字”时，LLM只会一脸天真地回答：“我不知道呀，你还没告诉我呢！” 这让我想起教两岁侄女认字的经历——你刚说完，她就忘了。

第二幕：给AI造个“记忆面包”——手动管理Messages数组

既然LLM天生健忘，我们得像多啦A梦一样，给它准备“记忆面包”。方法很简单：手动维护一个messages数组，把每次对话的提问和回答都存进去。

来看看升级版的代码：

const messages = [
  { role: 'system', content: '你是一个友好的助教' }
];

async function withMemoryChat(userInput) {
  // 将用户输入存入历史
  messages.push({ role: 'user', content: userInput });
  
  const res = await client.chat.completions.create({
    model: 'gpt-3.5-turbo',
    messages: messages // 发送完整对话历史
  });
  
  const reply = res.choices[0].message.content;
  // 将AI回复也存入历史
  messages.push({ role: 'assistant', content: reply });
  
  return reply;
}

现在，当你先说“我的名字是fogletter”，再问“我叫什么名字”时，AI会自信地回答：“你叫fogletter！” 就像那个终于记住客人名字的服务员，值得加个鸡腿！

但别高兴太早，新的问题来了……

第三幕：当记忆变成负担——Tokens的甜蜜陷阱

在掘金写技术文章时，我常强调“没有银弹”。LLM的记忆管理也是同理——记忆越多，代价越大。

Tokens是LLM世界的“货币”。每个汉字、标点都消耗token，而模型有上限（比如GPT-3.5-turbo的4096个token）。随着messages数组越来越长：

开销越来越大（API调用按token收费）
速度越来越慢（处理长文本需要更多时间）
最终会触发token超限错误

这让我想起自己第一次尝试记录完整对话历史的项目——原本流畅的聊天机器人，在对话20轮后变得像用2003年电脑玩《赛博朋克2077》，卡顿且昂贵。

更糟的是，LLM的注意力会分散。就像让你背诵一篇5000字的文章，突然问第3段第2行的内容，你大概率会懵。LLM面对过长历史时，也容易“失焦”。

第四幕：寻找黄金平衡点——对话历史的智能管理

如何在记忆与效率间找到平衡？我在实际项目中总结出两大策略：

1. 最近最少使用原则（LRU）——AI的“记忆保鲜术” 维护固定轮数的对话，比如只保留最近10轮：

if (messages.length > 10) {
  messages.splice(0, messages.length - 10); // 只保留最后10条
}

这就像我们的大脑，会自动淡化久远记忆，聚焦最近对话。

2. 总结归纳法——给对话写“读书笔记” 更优雅的方案是定期总结：

let summary = "用户的基本信息：";

async function smartChat(userInput) {
  messages.push({ role: 'user', content: userInput });

  if (messages.length > 10) {
    // 请求LLM总结关键信息
    const sumRes = await client.chat.completions.create({
      model: 'gpt-3.5-turbo',
      messages: [
        { role: 'system', content: '请总结对话的关键信息' },
        ...messages
      ]
    });
    
    summary += sumRes.choices[0].message.content;
    messages.splice(0, messages.length); // 清空老会话，保留总结
  }

  // 后续对话基于总结进行
  const res = await client.chat.completions.create({
    model: 'gpt-3.5-turbo',
    messages: [
      { role: 'system', content: summary },
      ...messages
    ]
  });
  
  return res.choices[0].message.content;
}