summy

Fishlinsihan · 2025-07-20 16:33:54 · 个人记录

我检查了Summly仓库，发现代码存在几个关键问题需要改进：

1. 摘要后处理逻辑问题（高风险）

在processor.py的summarize_text方法中：

summary = summary.replace(summary[summary.index('<'):summary.index('>')+1], '')

问题：如果摘要中不包含<或>字符，index()会抛出ValueError导致程序崩溃
风险：整个摘要功能可能因简单文本而失败

修复建议：

if '<' in summary and '>' in summary:
  try:
      start_idx = summary.index('<')
      end_idx = summary.index('>', start_idx) + 1
      summary = summary[:start_idx] + summary[end_idx:]
  except ValueError:
      pass  # 安全忽略解析错误

2. 破坏性文本清洗（功能缺陷）

summary = summary.replace('。', '')
summary = summary.replace('.', '')
...
summary = summary.replace(' ', '')

问题：
- 移除了所有句号和空格，导致摘要可读性差
- 英文摘要变成无空格字符串（如"hello world" → "helloworld"）
- 中文摘要丢失重要标点

修复建议：

# 语言敏感的清洗
if language == "zh":
  # 中文只需移除多余空格
  summary = re.sub(r'\s+', '', summary)
else:
  # 其他语言保留基本标点和空格
  summary = re.sub(r'\s+', ' ', summary).strip()

3. 模型加载效率问题

def summarize_text(self, text: str, ...):
    self.load_model()  # 每次摘要都检查模型加载

问题：每次调用摘要都检查模型是否加载，效率低下

修复建议：使用惰性加载装饰器或初始化时加载

from functools import lru_cache

class TextProcessor:
  @lru_cache(maxsize=1)
  def load_model(self):
      # 原有加载逻辑

4. 硬编码路径问题

在processor.py的__main__部分：

zh_summary = processor.process_file(
    "C:\\Users\\Zhang\\OneDrive\\Desktop\\TEST\\1.txt",
    ...
)

问题：Windows绝对路径硬编码，无法在其他系统运行

修复建议：使用相对路径或命令行参数

if __name__ == "__main__":
  import argparse
  parser = argparse.ArgumentParser()
  parser.add_argument("file_path", help="Path to input file")
  args = parser.parse_args()

  processor.process_file(args.file_path, ...)

5. 日志配置缺失

if __name__ == "__main__":
    logger.info("启动文本处理器")  # 未配置日志系统

问题：日志未初始化，所有logger调用无效

修复建议：添加基础日志配置

if __name__ == "__main__":
  logging.basicConfig(
      level=logging.INFO,
      format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
      handlers=[logging.StreamHandler()]
  )

6. 测试覆盖不足

在test_processor.py中：

缺少后处理逻辑的边界测试
没有多语言清洗逻辑的验证
缺少异常情况测试（如空输入、特殊字符）

7. 依赖管理问题

requirements.txt内容：

transformers
torch

问题：缺少版本锁定，可能导致兼容性问题

修复建议：指定版本范围

transformers>=4.30,<4.40
torch>=2.0,<2.2

8. 长文本处理缺陷

inputs = self.tokenizer(input_text, max_length=512, truncation=True)

问题：直接截断长文本，丢失关键信息

改进建议：实现分块摘要

def chunk_text(self, text, chunk_size=400):
  return [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]

chunks = self.chunk_text(text)
summaries = [self.summarize_chunk(chunk) for chunk in chunks]
final_summary = self.summarize_text(" ".join(summaries))

推荐修复步骤：

重构后处理逻辑：

def _clean_summary(self, summary, language):
   # 安全移除标签
   if '<' in summary and '>' in summary:
       try:
           start_idx = summary.index('<')
           end_idx = summary.index('>', start_idx) + 1
           summary = summary[:start_idx] + summary[end_idx:]
       except ValueError:
           pass

   # 语言敏感处理
   if language == "zh":
       summary = re.sub(r'\s+', '', summary)
   else:
       summary = re.sub(r'\s+', ' ', summary).strip()

   return summary

增强测试覆盖：

# test_processor.py 中添加
def test_special_characters(self):
   # 测试包含< >的文本
   summary = processor.summarize_text("Text with <tag> inside")
   self.assertNotIn('<tag>', summary)

def test_multilingual_cleaning(self):
   # 测试中英文清洗差异
   en_summary = processor.summarize_text("Hello. World!", language="en")
   self.assertIn(' ', en_summary)  # 英文保留空格

   zh_summary = processor.summarize_text("你好。世界！", language="zh")
   self.assertNotIn(' ', zh_summary)  # 中文无空格

优化模型加载：

class TextProcessor:
   def __init__(self):
       self._model_loaded = False

   def load_model(self):
       if not self._model_loaded:
           # 加载逻辑...
           self._model_loaded = True

这些改进将使代码更健壮、可维护，并解决当前存在的主要功能缺陷和崩溃风险。