Hi,<div><br></div><div>I think you could match on the Google bot string in vcl_hash and set a different hash key and with that set long cache times e.t.c but this would be essentially splitting your cache in half for google and not google and I really don't think that is a good idea as it lowers the number of items you can store.</div>
<div><br>Isn't a better temporary option to log into Google Webmaster tools and slow the crawl down. It is valid for 90 days after setting so it should give you breathing room. I assume this is a Drupal site as I've seen you at Drupal events. Could you also make a special settings.php setting that enables boost just for Googlebot so it doesn't crawl old articles again at any load?</div>
<div><br>Stewart Robinson.<br><br><div class="gmail_quote">On 2 December 2010 10:08, David Turner <span dir="ltr"><<a href="mailto:david@collaborativebusiness.co.uk">david@collaborativebusiness.co.uk</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">I have been digging around the documentation and wiki to see if this has been done before, it seems not so it might just be a bad idea...<br>

<br>
I'm working on a site that has a large number of dynamic pages. Googlebot is going to town spidering everything in sight and we need to get it under control in the short-term while we address the underlying performance.<br>

<br>
The content on the pages needs to be displayed to humans with a short cache time, but for Googlebot we wouldn't mind caching much more aggressively.<br>
<br>
So my thought was to manage the cache such that if anyone other than googlebot requested a page that we process it normally with a reasonable TTL and update the cache. But if Googlebot requests a page, determined by the agent string, we try to serve the page from the cache if it's available (even if it's stale) and otherwise fetch from the backend and update as normal.<br>

<br>
Aside from this maybe being a bad idea, I'm not sure how efficiently this could be implemented with Varnish. The reason for trying to handle all this in Varnish is that we can't easily make changes to the underlying CMS to handle this.<br>

<br>
Is this a good or bad idea? And at what point in the varnish pipeline is it most efficient to handle this?<br>
<font color="#888888"><br>
<br>
<br>
--<br>
David M Turner <<a href="mailto:david@collaborativebusiness.co.uk">david@collaborativebusiness.co.uk</a>><br>
Collaborative Business Services Ltd<br>
_______________________________________________<br>
varnish-misc mailing list<br>
<a href="mailto:varnish-misc@varnish-cache.org">varnish-misc@varnish-cache.org</a><br>
<a href="http://www.varnish-cache.org/lists/mailman/listinfo/varnish-misc" target="_blank">http://www.varnish-cache.org/lists/mailman/listinfo/varnish-misc</a><br>
</font></blockquote></div><br></div>