七月 19, 2011

Django 大文件下载问题处理

问题出现

你的Web应用可能会提供下载文件的功能。下载个几百KB乃至几个MB的文件直接用open读取文件返回response就可以了。内存它也不在乎你占用它那么点空间。但是，如果下载个几百M乃至几个G的文件直接用open读取文件返回response那就悲剧了，内存可不乐意一下子被你占用这么多空间。

问题解决

解决方法网上相关文章很多，比如：http://djangosnippets.org/snippets/365/

简单说就是用FileWrapper类来迭代器化一下文件对象，实例化出一个经过更适合大文件下载场景的文件对象，具体实现可以看源代码：django/core/servers/basehttp.py中的FileWrapper类的实现。

实现原理相当与把内容一点点从文件中读取，放到内存，下载下来，直到完成整个下载过程。这样内存就不会担心你一下子占用它那么多空间了。

新的问题

也许你有又会碰到一个新的问题，下载下来的文件竟然是个空文件。

如果你单步跟踪调试会发现文件内容返回的response在通过各个中间件过程中会被提前使用，最后发现是gzip这个中间件的一段代码对response取了下len，导致提前使用了这个迭代器化的文件对象，从而response返回内容没有了，表现为下载了一个空文件。

继续处理

这个时候你有很多选择：

继续用FileWrapper，不用gzip中间件
继续用gzip中间件，直接重写FileWrapper
重写gzip中间件，继续用FileWrapper

看了下Django源码，会发现重写gzip中间件会比较靠谱，只要简单修改一段代码逻辑即可。

但要有效，必须在下载的views代码的response返回值中设置个header。

遗留问题

其实更治本的办法应该是重写FileWapper，因为保证不了其它中间件或其它组建进行了类似gzip中间件的处理。

Django官网也有相关讨论，里面还有各种思路：https://code.djangoproject.com/ticket/2131

问题发现和处理使用的Django版本是1.3.0，也许未来Django应该会提供更好的官方解决方案吧。

代码片段

下载的views代码片段如下：

def tarball(request, release):

    file_name = 'dj-download-%s.tar.gz' % release
    file_path = os.path.join(FILE_FOLDER, file_name)
    try:
        tarball_file = open(file_path)
    except IOError:
        raise Http404
    wrapper = FileWrapper(tarball_file)
    response = HttpResponse(wrapper, content_type='application/zip')
    response['Content-Encoding'] = 'utf-8'  # 设置该值gzip中间件就会直接返回而不进行后续操作
    response['Content-Disposition'] = 'attachment; filename=%s' % file_name
    return response

修改Django的gzip中间件代码片段如下：

def process_response(self, request, response):
    # Avoid gzipping if we've already got a content-encoding.
    if response.has_header('Content-Encoding'):
        return response

    # It's not worth compressing non-OK or really short responses.
    if response.status_code != 200:
        return response
    if len(response.content) < 200:
        return response

    patch_vary_headers(response, ('Accept-Encoding',))
    # ... 省略的代码

相应对比Django的gzip中间件代码片段如下：

def process_response(self, request, response):
    # It's not worth compressing non-OK or really short responses.
    if response.status_code != 200 or len(response.content) < 200:
        return response

    patch_vary_headers(response, ('Accept-Encoding',))

    # Avoid gzipping if we've already got a content-encoding.
    if response.has_header('Content-Encoding'):
        return response
    # ... 省略的代码

akun's blog

软体动物鼻涕虫的各种随便