m读给你听 · 微信小程序

一款将题目/文档转成音频、用于听题学习的微信小程序。

把"看题"变成"听题",帮助用户在备考、通勤、做家务或睡前等碎片时间中继续输入内容。

项目信息

项目类型微信小程序 / AI 学习工具
项目周期7 天完成 MVP
我的角色需求定义、PRD、技术选型、AI 协作开发、测试迭代
核心能力OCR、TTS、AI 文本清洗、云开发

项目背景

备考刷题时,长时间依赖视觉阅读容易注意力下降,也更容易漏字、看岔。基于这个痛点,我想验证一件事:能不能把"看题"转化为"听题",让用户在不方便盯屏时也能继续学习。

前期调研中,我搜索了小红书、App 和微信小程序,发现现有产品要么偏泛用朗读,要么仍以视觉学习为主,缺少一条真正服务于"上传题目后直接听题"的使用路径。

场景判断

项目当前聚焦的是希望利用碎片时间通过音频输入内容的人,其中最典型的是备考用户。

我优先验证了几个最成立的使用场景:

  • 备考刷题时降低视觉负担
  • 通勤途中继续输入内容
  • 做家务、睡前等不方便看屏时使用

核心功能

  • 多种输入方式:支持拍照、PDF、Word 和手动输入,适配不同内容来源
  • OCR 识别 + AI 清洗解析:先完成文字识别,再对噪点、断句和题目结构进行处理,尽量还原可朗读内容
  • 音色选择与试听:支持多种音色选择、试听和变速播放,提升朗读体验
  • 文件夹管理:支持按科目或场景整理文件,并实现文件夹内连续播放
  • 断点续播:自动记录播放进度,方便中断后继续学习
  • 后台播放与播放控制:支持暂停、切题、快进快退、循环等操作,更符合连续听题场景
  • 学习记录与统计:通过热力图和基础数据可视化呈现使用情况,增强持续使用感

技术实现

项目基于 微信小程序 + 云开发 + Node.js 实现,接入 腾讯云 OCR 和 腾讯云 TTS 完成识别与语音合成。

在开发过程中,我借助 Claude Code 与 DeepSeek 完成需求梳理、PRD 撰写、代码生成、调试与迭代。AI 提高了开发效率,而我负责持续判断目标、取舍方案,并验证最终结果是否真正可用。

测试与迭代

测试是这个项目里最耗时的部分,也最能体现产品是否真的可用。

我重点验证了:

  • OCR 与文本清洗效果:处理截图噪点、页码、页眉等干扰信息
  • TTS 听感:从机械音切换到更自然的音色
  • 播放链路:连播、续播、后台播放、进度保存
  • 接口稳定性:云函数部署、权限配置、额度变化与联调问题

这让我更明确:代码能跑不等于产品可用,真正耗时的是边界处理与体验打磨。

项目结果

这个项目让我完整经历了一次从 0 到 1 的实践:从需求发现、竞品调研、PRD 梳理,到技术选型、AI 协作开发和测试迭代,最终完成了可用的 MVP。

它也让我更确认自己想做的方向:从真实问题出发,用产品思维定义场景,再借助 AI 把想法快速落地。

技术栈

微信小程序云开发腾讯云 OCR腾讯云 TTSNode.jsClaude Code后台播放音色试听DeepSeek V4 Pro