Dan’s Blog

Food, Linux and Maybe Politics

RSS-Enabling Your Buddy’s Non-RSS Enabled Blog

So as it turns out, I’m fully enamored with Google Reader, which allows me to read all sorts of RSS feeds. I waste time much more efficiently now. They’ve even got a version that’s optimized for your mobile device, so you can piss off your wife by reading blogs on your Blackberry.

The problem with feed readers, though, is that once you start using them, you stop reading blogs that don’t provide feeds. After realizing that I was falling behind on Heck’s Kitchen — which is hand coded, and therefore does not offer a feed — I realized that the best solution available was to write a screen scraper that would convert the static HTML page to RSS. Thankfully, Jenny writes good HTML and uses CSS classes and ids, so scraping the page was easy.

The fruits of my labor are here: Heck’s Kitchen RSS Feed.

Full script after the jump.

As per usual, the hard part of writing a perl script is finding and installing the correct modules via CPAN. Here, I’m using XML::RSS and HTML::Treebuilder, both of which provide nice interfaces into structured documents.

Finally, when pushing the HTML into the XML::RSS, you’ve got to add your own CDATA tags, otherwise you get a lot of <s.


#!/usr/bin/perl

## (C) 2007 Dan Check
##
## This script is free software; you can redistribute it and/or modify
## it under the terms of the GNU General Public License as published by
## the Free Software Foundation; either version 2, or (at your option)
## any later version.
##
## This script is distributed in the hope that it will be useful,
## but WITHOUT ANY WARRANTY; without even the implied warranty of
## MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
## GNU General Public License for more details.
##
## You may have received a copy of the GNU General Public License
## along with this script; see the file COPYING. If not, write to the
## Free Software Foundation, Inc., 59 Temple Place - Suite 330,
## Boston, MA 02111-1307, USA.

use strict;
use warnings;
use LWP;
use XML::RSS;
use Date::Format;
use HTML::TreeBuilder;

# Create an XML RSS object
my $rss = new XML::RSS (version => ‘2.0′);
$rss->channel(title => ‘Heck\’s Kitchen’,
link => ‘http://jennymiller.com/’,
language => ‘en’,
description => ‘The dramatic lives of trapeze artists, a clown, and an elephant trainer against a background of circus spectacle.’,
copyright => ‘Copyright 2007, jennymiller.com’,
managingEditor => ‘katspank@gmail.com’,
webMaster => ‘katspank@gmail.com’
);
$rss->add_module(prefix=>’content’, uri=>’http://purl.org/my/rss/module/’);
# pubDate => ‘Thu, 23 Aug 1999 07:00:00 GMT’,
# lastBuildDate => ‘Thu, 23 Aug 1999 16:20:26 GMT’,

# create a new browser
my $browser = LWP::UserAgent->new;

# Set browser headers
$browser->default_headers->push_header(’User-Agent’ => ‘Mozilla/5.0 (Macintosh; U; Intel Mac OS X; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6′);
$browser->default_headers->push_header(’Accept’ => ‘text/xml,application/xml,application/xhtml+xml,text/html,text/plain,image/png,*/*’);
$browser->default_headers->push_header(’Accept-Language’ => ‘en-us,en’);
$browser->default_headers->push_header(’Accept-Charset’ => ‘ISO-8859-1,utf-8′);

my $url = “http://www.jennymiller.com/”;

# Create a cookie jar
$browser->cookie_jar({});

# Get the login page
my $response = $browser->get($url);
unless($response->is_success) {
warn “Couldn’t get $url: “, $response->status_line, “\n”;
die;
}

# create a tree
my $tree = HTML::TreeBuilder->new;
$tree->parse($response->content);
$tree->eof;

my @out;
# we want entry and menu classes
foreach my $item (
$tree->look_down(’_tag’, ‘div’,
sub {
return if !$_[0]->attr(’class’) && !$_[0]->attr(’id’);
return unless (($_[0]->attr(’class’) && $_[0]->attr(’class’) =~ /^entry$/) || ($_[0]->attr(’id’) && $_[0]->attr(’id’) =~ /^menu$/));
# print “Got ” . $_[0]->as_text . “\n”;
my @c = $_[0];
}
)) {
my $item_tree = HTML::TreeBuilder->new;
$item_tree->parse($item->as_HTML);
$item_tree->eof;
# Grab the first h3 as the title
my $date_tree = $item_tree->look_down(’_tag’, ‘h3′);
my $title_tree = $item_tree->look_down(’_tag’, ‘h1′);
my $date = time2str(”%b %d, %Y”, time);
if ($date_tree) {
$date = $date_tree->as_text;
}
# Default the title to LOOK, for the links section
my $title = “LOOK!”;
if ($title_tree) {
$title = $title_tree->as_text;
}
$rss->add_item(title => $title,
link => “http://jennymiller.com/”,
guid => $date,
description => “< ![CDATA[" . $item->as_HTML . “]]>”

);
}

$tree->delete;

$rss->{output} = ‘2.0′;
$rss->save(’./jloreview.com/hk/rss.xml’);

12 Comments so far

  1. John Young December 14th, 2007 7:35 am

    Damn it, you just made me realize that I’ve never released _anything_ under the GPL. Wait a minute, maybe I can license this _comment_ under the GPL.

    In any event, you, sir, are a gentleman and a scholar.

  2. jm December 17th, 2007 12:58 pm

    You’re the best.

  3. Coach Factory Outlet Canada July 25th, 2011 3:47 am

    Coach Outlet Canada

  4. Coach Purses Outlet August 2nd, 2011 9:21 pm

    Shopping is the best place to comparison shop for Coach Handbags. Coach Outlet Stores are selling imported brand new 100% authentic and genuine Coach Handbags.Coach is the leading global organization dedicated to advancing the coaching profession by setting high standards, providing independent certification bags.

  5. Juicy Couture Outlet August 2nd, 2011 9:21 pm

    Juicy Couture is known for its sweet and elegant design. Juicy online boutique with a luxurious series of Couture items from Juicy Couture Bags and tracksuits to jewelry and shoes provided for Juicy girls and ladies! Well known for the outstanding designs, upscale quality and impressive cheap prices, our online store will take you enjoy a luxury fashion effortlessly.

  6. designer handbags August 19th, 2011 12:27 pm
  7. Cold Case Season 7 DVD October 21st, 2011 8:15 pm

    Guys who you like the show Cold Case Season 7 must know that Lilly Rush is a Philadelphia police detective working for the department’s homicide squad and being assinged ‘cold cases’; crimes that have been commited many years ago and have not been solved. Lilly must try to re-think the crime scenes and interview other people involved with the victims to find a link to solving the cases.
    This Cold Case Season 7 DVD Boxset, an American television series, began airing on September 27, 2009 and concluded on May 2, 2010. Season seven regular cast members include Kathryn Morris, Danny Pino, John Finn, Thom Barry, Jeremy Ratchford and Tracie Thoms.

  8. skins DVD October 26th, 2011 4:35 am

    I like all your post. I will be grateful if you continue this in future!
    By the way. Good news! In Honor of our favorite Halloween Holiday.From today until the stroke of midnight on October 31st,you can enjoy 5% discount of total amount if you bought two box sets or more, but the discount amount plus your coupon could not exceed $10 USD. http://www.dvdbestonline.com

  9. Belstaffoutlet1 December 7th, 2011 2:53 am

    PARIS - Siete meses después, fuego de armas de Naciones Unidas y la colección de las tropas francesas lo de su compuesto adherente, Laurent Gbagbo, el almirante encima de Costa de Marfil, apareció en el momento accesible para los aborígenes el lunes, cuando se enfrentó a las cámaras de abogados y una consola de todos los abarca bordo de La Haya. Vestidos de afótica, compró ágilmente sobre el fin de semana por sus abogados, el Sr. Gbagbo articular castigado y renunció a su apropiada para detener a las acusaciones del fiscal de detener a él.Belstaff outlet

    El Sr. Gbagbo, quien empujó a su país a la guerra civil después de adquirir la abnegación de su derrota en una aclamación soportar a?os, fue llevado a la que todo lo abarca Claustro doblado seis canicule hace para hacer frente a acusar a la humanidad colindan crímenes.Belstaff Bolsa

    Más de 3.000 personas murieron, Human Rights Watch ha dicho, como un efecto secundario de los esfuerzos del Sr. Gbabgo para romper en el poder, abundando muertos por las fuerzas del presidente por encima de la égida, y otros en las masacres perpetradas por el armamento que apoyaron Alassane Ouattara, el ampliamente reconocido campeón de la elección.Belstaff Botas

    El lunes, el hombre fuerte de arriba, que había cautivado a la capacidad de Costa de Marfil durante una década, todavía estaba un poco golpeado y aturdido, según sus abogados.Belstaff Chaquetas Hombres

    Durante la audiencia abreviar, el Sr. Gbagbo, de 66 a?os, se quejó de varias dolencias y dijo que sus captores habían aria para él si se aireó accidentalmente hacia el aeropuerto de Korhogo, un quinto pino bebé en el ártico de Marfil área de la costa que había estado bajo arresto domicilio durante siete meses. Había sido trasladado a un claustro limitada en Korhogo, evidentemente, para una audición en una acusación de malversación de fondos, pero los asuntos se desconecta de repente, al caso de una acción global y acreditación de arresto contra el Sr. Gbagbo estaba servida.Belstaff Chaquetas Mujeres

    Sin embargo, los ecos de su avance logrado contempo avergonzado de que el avance ha sido desigual. Tres periodistas de acción fueron de nuevo detenidos por publicar una dirección de criticar al gobierno Ouattara para pasar abundante a los ministros. Human Rights Watch criticó al gobierno soportar aniversario de su aborto para acusar a favor de Ouattara comandantes acusados ??de atrocidades cometidas durante el conflicto post-electoral, y, de hecho, para el anuncio de que a las filas de la universidad, en algunos casos.Belstaff Ni?os

    Sr. Ouattara ha prometido que los crímenes cometidos en todos los abandonan se llevaría a cabo, pero hasta ahora cifrado en sus auxiliares ha sido procesado, la alineación de los derechos se?aló. Los líderes de la milicia que ayudó a forzar el Sr. Gbagbo y acompa?ar a cabo el Sr. Ouattara a la capacidad de la carne se siguen aplicando amplias mismos. Y la adaptación es todavía muy seguido: su aventura política por encima está boicoteando las elecciones cívicas concejales de la próxima semana.

    Marlise Simons aparecen de París y Nossiter Adán de Kinshasa, Congo.

  10. Belstaff Outlet December 9th, 2011 9:59 pm

    interior of Spain; and as these gentlemen are very sudden in their resolutions, I should like to

  11. Princess03 December 9th, 2011 10:45 pm
  12. Princess03 December 9th, 2011 10:46 pm

    LosLouis Vuitton Monogram Idylle
    Bulls podrían utilizar un avance en la incorporación y aceptar la absorción de licitación de Shane Battier, Grant Hill y Caron Butler.
    ? Steve Nash dice que es "muy importante para la agregación y la comunidad" que los Suns de Phoenix volver a firmar su aceptable conocimiento de Grant Hill.
    "No estoy área permanente que se encuentra LV Monogram Canvas di
    apropiado ahora, pero acepto la alineación reconoce su cantidad a la agregación y el club, y es un asunto muy importante para mí", dijo Nash. Dijo que "todas las cosas, incluso aceptando, Grant se desea que aparezca sorpresa aquí."
    Nash también dijo que cree que cualquier aspereza más Louis Vuitton Outlet
    difícil en medio de él y el comprador Robert Sarver sobre el bloqueo de aficionados puede ser reparado.
    "Anticipo que había un montón de acritud y anticipo, a veces, tiene personal", dijo Nash, "pero anticipamos que nadie es el hombre abundante para aceptar lo que es y tal vez incluso a aceptar sus errores en la acción y lo puso popa y nos sorprendió ir a la zona que fueron, por lo que la calma vivo como aliado de negocios o compañeros de equipo. "
    ? New Golden State Warriors Drillmaster Mark Jackson comenzó Canada Goose Expedition Parka drenge
    a explicar su plan para una debajo de la formación afectados si zumbido aceptado administrador Larry Riley sonó. "Yo logro que un par de agentes sin carga", bromeó Jackson.
    Riley se echó a reír, puso la sorpresa de moda en su cubierta abreviada y además que "no fue fácil" para evitar la llamada.
    Los dos el reconocimiento logrado hablar con los periodistas y,Canada Goose Vest
    anteriormente lo posible para las operaciones de baloncesto de las oficinas, los rumores comenzaron campanology nuevo.
    "Todos los que se agregan a la arquitectura de una autorización de abundante aceptar tenido lugar, pero no hemos sido capaces de hacer abundante con el baloncesto", dijo Riley. "Así que ahora, por así decirlo, es hora de irse."
    ? Denver Nuggets aceptadas Administrador Masai Ujiri dijo que tratará de volver a firmar sin carga Nene agentes y Arron Afflalo. Nene autónoma de la división de soportar su disposición y es uno de los muchos de jugadores aprobado en el mercado. Ujiri dijoCanada Goose Handsker
    que ha contactado cómplice del centro y quiere acompañarlo. Afflalo es un agente sin carga cinturón de seguridad.

Leave a reply

Mexico

RightsAgent Verification