1. ЗР = Закрытый Раздел
2.1. Для начала хотя бы брать новые новости с сайта и новые темы с форума. Новыми считается все созданные раньше указанной даты
2.2. В онлайне делать ничего не надо. Т.е. пользователь запускает программу или что-то еще, указывает дату и программа берет все раньше этой даты
2.3. Желательно сделать возможность просмотра тем в блогах указанных пользователей (ЖЖ, блогспот)
Мне кажется, технически намного проще прикрутить скрипт, регистрирующий нужные добавления, к форуму и формам для размещения новостей, чем анализировать контент. Кроме того, это предотвратит возможные проблемы при изменениях сайта (смена версии движка, изменение структуры, изменение CSS, добавление разделов и т. п.)
С ЖЖ и блогами сторонних сайтов задачка посложнее - наверное, без анализа не обойтись. Хотя тут имеет смысл ограничиться самым примитивным анализом - например, только поиском по определённым классам стиля CSS.
Это я не билета ради, но общего развития для.
Просто по времени совпало: на днях как раз обдумывал некоторые аспекты автоматизированного анализа web-страниц, чисто для себя.