crawlers

f1dfa7e9 · Renán Sosa Guillen · 720f6059 · f1dfa7e9 · f1dfa7e9 · f1dfa7e9
Commit f1dfa7e9 authored Aug 23, 2017 by Renán Sosa Guillen
355 changed files
--- a/README.md
+++ b/README.md
@@ -211,6 +211,16 @@ Se incluyen los siguientes medios:
 	scrapy crawl noticias -t json --nolog -o noticias.json -a year=2017 -a month=3 -a day=22
 	```
 	No se encontró notas antes del 2011.11.28.
+* [Proceso](http://www.proceso.com.mx/)
+	Uso:
+	```bash
+	cd proceso
+	scrapy crawl noticias -t json --nolog -o noticias.json -a year=2017 -a month=3
+	```
+	No se encontró notas antes de Nov. 1976.
 * [Punto Medio](https://www.puntomedio.mx/)

--- a/crawler_data.json
+++ b/crawler_data.json
 [
-{"nombre": "Al Chile", "crawler": "sitios_yucatan/alChile", "desde": "01-06-2014", "url": "http://alchile.com.mx/"},
+{"nombre": "Al Chile", "crawler": "descarga_por_fecha/alChile", "desde": "01-06-2014", "url": "http://alchile.com.mx/"},
-{"nombre": "Desde el Balcón", "crawler": "sitios_yucatan/desdeElBalcon", "desde": "11-01-2014", "url": "http://www.desdeelbalcon.com/"},
+{"nombre": "Desde el Balcón", "crawler": "descarga_por_fecha/desdeElBalcon", "desde": "11-01-2014", "url": "http://www.desdeelbalcon.com/"},
-{"nombre": "Diario de Yucatán", "crawler": "sitios_yucatan/diarioYucatan", "desde": "02-04-2012", "url": "http://yucatan.com.mx/"},
+{"nombre": "Diario del Yaqui", "crawler": "descarga_por_fecha/diarioYaqui", "desde": "30-12-2016", "url": "http://diariodelyaqui.mx"},
-{"nombre": "El Grillo", "crawler": "sitios_yucatan/grilloPorteno", "desde": "04-11-2013", "url": "http://grilloporteno.com/"},
+{"nombre": "Diario de Yucatán", "crawler": "descarga_por_fecha/diarioYucatan", "desde": "02-04-2012", "url": "http://yucatan.com.mx/"},
-{"nombre": "La Jornada Maya", "crawler": "sitios_yucatan/laJornadaMaya", "desde": "12-03-2015", "url": "https://www.lajornadamaya.mx/"},
+{"nombre": "El Grillo", "crawler": "descarga_por_fecha/grilloPorteno", "desde": "04-11-2013", "url": "http://grilloporteno.com/"},
-{"nombre": "La Verdad Yucatán", "crawler": "sitios_yucatan/laVerdadYuc", "desde": "01-12-2015", "url": "http://laverdadnoticias.com/"},
+{"nombre": "La Jornada", "crawler": "descarga_por_fecha/laJornada", "desde": "01-02-2005", "url": "http://www.jornada.unam.mx"},
-{"nombre": "Lector MX", "crawler": "sitios_yucatan/lectorMX", "desde": "23-10-2015", "url": "http://lectormx.com/"},
+{"nombre": "La Jornada Aguascalientes", "crawler": "descarga_por_fecha/laJornadaAgs", "desde": "01-12-2008", "url": "http://www.lja.mx/"},
-{"nombre": "Mi Punto de Vista", "crawler": "sitios_yucatan/miPuntoDeVista", "desde": "04-10-2008", "url": "http://www.mipuntodevista.com.mx/"},
+{"nombre": "La Jornada Baja California", "crawler": "descarga_por_fecha/laJornadaBC", "desde": "09-02-2015", "url": "http://jornadabc.mx"},
-{"nombre": "Notirivas", "crawler": "sitios_yucatan/notirivas", "desde": "22-11-2016", "url": "http://gruporivas.com.mx/notirivas/"},
+{"nombre": "La Jornada Guerrero", "crawler": "descarga_por_fecha/laJornadaGro", "desde": "22-01-2007", "url": "http://www.lajornadaguerrero.com.mx"},
-{"nombre": "Notisureste", "crawler": "sitios_yucatan/notisureste", "desde": "28-11-2011", "url": "http://www.notisureste.com/"},
+{"nombre": "La Jornada Maya", "crawler": "descarga_por_fecha/laJornadaMaya", "desde": "12-03-2015", "url": "https://www.lajornadamaya.mx/"},
-{"nombre": "Punto Medio", "crawler": "sitios_yucatan/puntoMedio", "desde": "02-08-2015", "url": "https://www.puntomedio.mx/"},
+{"nombre": "La Jornada de Oriente", "crawler": "descarga_por_fecha/laJornadaOte", "desde": "01-06-2013", "url": "http://www.lajornadadeoriente.com.mx/"},
-{"nombre": "Sona 89.3", "crawler": "sitios_yucatan/sona893", "desde": "09-04-2012", "url": "http://sona893.fm/"},
+{"nombre": "La Jornada San Luis", "crawler": "descarga_por_fecha/laJornadaSanLuis", "desde": "08-10-2014", "url": "http://lajornadasanluis.com.mx"},
-{"nombre": "Yucatán a la Mano", "crawler": "sitios_yucatan/yucatanALaMano", "desde": "11-05-2015", "url": "http://www.yucatanalamano.com/"},
+{"nombre": "La Jornada Veracruz", "crawler": "descarga_por_fecha/laJornadaVer", "desde": "11-05-2009", "url": "http://www.jornadaveracruz.com.mx"},
-{"nombre": "Yucatán al Minuto", "crawler": "sitios_yucatan/yucatanAlMinuto", "desde": "17-01-2017", "url": "http://www.yucatanalminuto.com/"},
+{"nombre": "La Jornada Zacatecas", "crawler": "descarga_por_fecha/laJornadaZac", "desde": "10-06-2013", "url": "http://ljz.mx"},
-{"nombre": "Yucatán en Corto", "crawler": "sitios_yucatan/yucatanEnCorto", "desde": "02-04-2011", "url": "http://florcastillo.mx/noticias/"},
+{"nombre": "La Verdad Yucatán", "crawler": "descarga_por_fecha/laVerdadYuc", "desde": "01-12-2015", "url": "http://laverdadnoticias.com/"},
-{"nombre": "Diario del Yaqui", "crawler": "otros_sitios/diarioYaqui", "desde": "30-12-2016", "url": "http://diariodelyaqui.mx"},
+{"nombre": "Lector MX", "crawler": "descarga_por_fecha/lectorMX", "desde": "23-10-2015", "url": "http://lectormx.com/"},
-{"nombre": "La Jornada", "crawler": "otros_sitios/laJornada", "desde": "01-02-2005", "url": "http://www.jornada.unam.mx"},
+{"nombre": "Mi Punto de Vista", "crawler": "descarga_por_fecha/miPuntoDeVista", "desde": "04-10-2008", "url": "http://www.mipuntodevista.com.mx/"},
-{"nombre": "La Jornada Aguascalientes", "crawler": "otros_sitios/laJornadaAgs", "desde": "01-12-2008", "url": "http://www.lja.mx/"},
+{"nombre": "Notirivas", "crawler": "descarga_por_fecha/notirivas", "desde": "22-11-2016", "url": "http://gruporivas.com.mx/notirivas/"},
-{"nombre": "La Jornada Baja California", "crawler": "otros_sitios/laJornadaBC", "desde": "09-02-2015", "url": "http://jornadabc.mx"},
+{"nombre": "Notisureste", "crawler": "descarga_por_fecha/notisureste", "desde": "28-11-2011", "url": "http://www.notisureste.com/"},
-{"nombre": "La Jornada Guerrero", "crawler": "otros_sitios/laJornadaGro", "desde": "22-01-2007", "url": "http://www.lajornadaguerrero.com.mx"},
+{"nombre": "Proceso", "crawler": "descarga_por_mes/proceso", "desde": "11-1976", "url": "http://www.proceso.com.mx/"},
-{"nombre": "La Jornada de Oriente", "crawler": "otros_sitios/laJornadaOte", "desde": "01-06-2013", "url": "http://www.lajornadadeoriente.com.mx/"},
+{"nombre": "Punto Medio", "crawler": "descarga_por_fecha/puntoMedio", "desde": "02-08-2015", "url": "https://www.puntomedio.mx/"},
-{"nombre": "La Jornada San Luis", "crawler": "otros_sitios/laJornadaSanLuis", "desde": "08-10-2014", "url": "http://lajornadasanluis.com.mx"},
+{"nombre": "Sona 89.3", "crawler": "descarga_por_fecha/sona893", "desde": "09-04-2012", "url": "http://sona893.fm/"},
-{"nombre": "La Jornada Veracruz", "crawler": "otros_sitios/laJornadaVer", "desde": "11-05-2009", "url": "http://www.jornadaveracruz.com.mx"},
+{"nombre": "Yucatán a la Mano", "crawler": "descarga_por_fecha/yucatanALaMano", "desde": "11-05-2015", "url": "http://www.yucatanalamano.com/"},
-{"nombre": "La Jornada Zacatecas", "crawler": "otros_sitios/laJornadaZac", "desde": "10-06-2013", "url": "http://ljz.mx"}
+{"nombre": "Yucatán al Minuto", "crawler": "descarga_por_fecha/yucatanAlMinuto", "desde": "17-01-2017", "url": "http://www.yucatanalminuto.com/"},
+{"nombre": "Yucatán en Corto", "crawler": "descarga_por_fecha/yucatanEnCorto", "desde": "02-04-2011", "url": "http://florcastillo.mx/noticias/"}
 ]
\ No newline at end of file
--- a/crawler_script/crawl_all.py
+++ b/crawler_script/crawl_all.py
@@ -69,8 +69,4 @@ with open(sys.argv[1]) as data_file:
 		os.chdir("..")
 print today.year
 #	scrapy crawl noticias -t json -o $y-$m-$d.json -a year=$y -a month=$m -a day=$d      # ejecucion del crawler correspondiente segun el sitio
\ No newline at end of file
--- a/otros_sitios/diarioYaqui/diarioYaqui/__init__.py
+++ b/otros_sitios/diarioYaqui/diarioYaqui/__init__.py
--- a/otros_sitios/laJornadaBC2/laJornadaBC2/__init__.pyc
+++ b/otros_sitios/laJornadaBC2/laJornadaBC2/__init__.pyc
--- a/otros_sitios/laJornadaBC2/laJornadaBC2/items.py
+++ b/otros_sitios/laJornadaBC2/laJornadaBC2/items.py
--- a/otros_sitios/laJornadaBC2/laJornadaBC2/middlewares.py
+++ b/otros_sitios/laJornadaBC2/laJornadaBC2/middlewares.py
--- a/otros_sitios/laJornadaBC2/laJornadaBC2/pipelines.py
+++ b/otros_sitios/laJornadaBC2/laJornadaBC2/pipelines.py
--- a/otros_sitios/laJornadaBC2/laJornadaBC2/settings.py
+++ b/otros_sitios/laJornadaBC2/laJornadaBC2/settings.py
--- a/otros_sitios/laJornadaBC2/laJornadaBC2/settings.pyc
+++ b/otros_sitios/laJornadaBC2/laJornadaBC2/settings.pyc
--- a/otros_sitios/diarioYaqui/diarioYaqui/spiders/__init__.py
+++ b/otros_sitios/diarioYaqui/diarioYaqui/spiders/__init__.py
--- a/otros_sitios/laJornadaBC2/laJornadaBC2/spiders/__init__.pyc
+++ b/otros_sitios/laJornadaBC2/laJornadaBC2/spiders/__init__.pyc
--- a/otros_sitios/laJornadaBC2/laJornadaBC2/spiders/noticias.py
+++ b/otros_sitios/laJornadaBC2/laJornadaBC2/spiders/noticias.py
--- a/otros_sitios/laJornadaBC2/laJornadaBC2/spiders/noticias.pyc
+++ b/otros_sitios/laJornadaBC2/laJornadaBC2/spiders/noticias.pyc
--- a/otros_sitios/laJornadaBC2/scrapy.cfg
+++ b/otros_sitios/laJornadaBC2/scrapy.cfg
--- a/otros_sitios/laJornada/laJornada/__init__.py
+++ b/otros_sitios/laJornada/laJornada/__init__.py
--- a/otros_sitios/laJornadaMaya2/laJornadaMaya2/items.py
+++ b/otros_sitios/laJornadaMaya2/laJornadaMaya2/items.py
--- a/otros_sitios/laJornadaMaya2/laJornadaMaya2/middlewares.py
+++ b/otros_sitios/laJornadaMaya2/laJornadaMaya2/middlewares.py
--- a/otros_sitios/laJornadaMaya2/laJornadaMaya2/pipelines.py
+++ b/otros_sitios/laJornadaMaya2/laJornadaMaya2/pipelines.py
--- a/otros_sitios/laJornadaMaya2/laJornadaMaya2/settings.py
+++ b/otros_sitios/laJornadaMaya2/laJornadaMaya2/settings.py
--- a/otros_sitios/laJornada/laJornada/spiders/__init__.py
+++ b/otros_sitios/laJornada/laJornada/spiders/__init__.py
--- a/otros_sitios/laJornadaMaya2/laJornadaMaya2/spiders/noticias.py
+++ b/otros_sitios/laJornadaMaya2/laJornadaMaya2/spiders/noticias.py
--- a/otros_sitios/laJornadaMaya2/scrapy.cfg
+++ b/otros_sitios/laJornadaMaya2/scrapy.cfg
--- a/otros_sitios/laJornadaAgs/laJornadaAgs/__init__.py
+++ b/otros_sitios/laJornadaAgs/laJornadaAgs/__init__.py
--- a/sitios_yucatan/alChile/alChile/__init__.pyc
+++ b/sitios_yucatan/alChile/alChile/__init__.pyc
--- a/sitios_yucatan/alChile/alChile/items.py
+++ b/sitios_yucatan/alChile/alChile/items.py
--- a/sitios_yucatan/alChile/alChile/middlewares.py
+++ b/sitios_yucatan/alChile/alChile/middlewares.py
--- a/sitios_yucatan/alChile/alChile/pipelines.py
+++ b/sitios_yucatan/alChile/alChile/pipelines.py
--- a/sitios_yucatan/alChile/alChile/settings.py
+++ b/sitios_yucatan/alChile/alChile/settings.py
--- a/sitios_yucatan/alChile/alChile/settings.pyc
+++ b/sitios_yucatan/alChile/alChile/settings.pyc
--- a/otros_sitios/laJornadaAgs/laJornadaAgs/spiders/__init__.py
+++ b/otros_sitios/laJornadaAgs/laJornadaAgs/spiders/__init__.py
--- a/sitios_yucatan/alChile/alChile/spiders/__init__.pyc
+++ b/sitios_yucatan/alChile/alChile/spiders/__init__.pyc
--- a/sitios_yucatan/alChile/alChile/spiders/noticias.py
+++ b/sitios_yucatan/alChile/alChile/spiders/noticias.py
--- a/sitios_yucatan/alChile/alChile/spiders/noticias.pyc
+++ b/sitios_yucatan/alChile/alChile/spiders/noticias.pyc
--- a/sitios_yucatan/alChile/alChile/spiders/noticiasChile.pyc
+++ b/sitios_yucatan/alChile/alChile/spiders/noticiasChile.pyc
--- a/sitios_yucatan/alChile/scrapy.cfg
+++ b/sitios_yucatan/alChile/scrapy.cfg
--- a/otros_sitios/laJornadaBC/laJornadaBC/__init__.py
+++ b/otros_sitios/laJornadaBC/laJornadaBC/__init__.py
--- a/sitios_yucatan/desdeElBalcon/desdeElBalcon/__init__.pyc
+++ b/sitios_yucatan/desdeElBalcon/desdeElBalcon/__init__.pyc
--- a/sitios_yucatan/desdeElBalcon/desdeElBalcon/items.py
+++ b/sitios_yucatan/desdeElBalcon/desdeElBalcon/items.py
--- a/sitios_yucatan/desdeElBalcon/desdeElBalcon/middlewares.py
+++ b/sitios_yucatan/desdeElBalcon/desdeElBalcon/middlewares.py
--- a/sitios_yucatan/desdeElBalcon/desdeElBalcon/pipelines.py
+++ b/sitios_yucatan/desdeElBalcon/desdeElBalcon/pipelines.py
--- a/sitios_yucatan/desdeElBalcon/desdeElBalcon/settings.py
+++ b/sitios_yucatan/desdeElBalcon/desdeElBalcon/settings.py
--- a/sitios_yucatan/desdeElBalcon/desdeElBalcon/settings.pyc
+++ b/sitios_yucatan/desdeElBalcon/desdeElBalcon/settings.pyc
--- a/otros_sitios/laJornadaBC/laJornadaBC/spiders/__init__.py
+++ b/otros_sitios/laJornadaBC/laJornadaBC/spiders/__init__.py
--- a/sitios_yucatan/desdeElBalcon/desdeElBalcon/spiders/__init__.pyc
+++ b/sitios_yucatan/desdeElBalcon/desdeElBalcon/spiders/__init__.pyc
--- a/sitios_yucatan/desdeElBalcon/desdeElBalcon/spiders/noticias.py
+++ b/sitios_yucatan/desdeElBalcon/desdeElBalcon/spiders/noticias.py
--- a/sitios_yucatan/desdeElBalcon/desdeElBalcon/spiders/noticias.pyc
+++ b/sitios_yucatan/desdeElBalcon/desdeElBalcon/spiders/noticias.pyc
--- a/sitios_yucatan/desdeElBalcon/scrapy.cfg
+++ b/sitios_yucatan/desdeElBalcon/scrapy.cfg
--- a/otros_sitios/laJornadaBC2/laJornadaBC2/__init__.py
+++ b/otros_sitios/laJornadaBC2/laJornadaBC2/__init__.py
--- a/otros_sitios/diarioYaqui/diarioYaqui/__init__.pyc
+++ b/otros_sitios/diarioYaqui/diarioYaqui/__init__.pyc
--- a/otros_sitios/diarioYaqui/diarioYaqui/items.py
+++ b/otros_sitios/diarioYaqui/diarioYaqui/items.py
--- a/otros_sitios/diarioYaqui/diarioYaqui/middlewares.py
+++ b/otros_sitios/diarioYaqui/diarioYaqui/middlewares.py
--- a/otros_sitios/diarioYaqui/diarioYaqui/pipelines.py
+++ b/otros_sitios/diarioYaqui/diarioYaqui/pipelines.py
--- a/otros_sitios/diarioYaqui/diarioYaqui/settings.py
+++ b/otros_sitios/diarioYaqui/diarioYaqui/settings.py
--- a/otros_sitios/diarioYaqui/diarioYaqui/settings.pyc
+++ b/otros_sitios/diarioYaqui/diarioYaqui/settings.pyc
--- a/otros_sitios/laJornadaBC2/laJornadaBC2/spiders/__init__.py
+++ b/otros_sitios/laJornadaBC2/laJornadaBC2/spiders/__init__.py
--- a/otros_sitios/diarioYaqui/diarioYaqui/spiders/__init__.pyc
+++ b/otros_sitios/diarioYaqui/diarioYaqui/spiders/__init__.pyc
--- a/otros_sitios/diarioYaqui/diarioYaqui/spiders/noticias.py
+++ b/otros_sitios/diarioYaqui/diarioYaqui/spiders/noticias.py
--- a/otros_sitios/diarioYaqui/diarioYaqui/spiders/noticias.pyc
+++ b/otros_sitios/diarioYaqui/diarioYaqui/spiders/noticias.pyc
--- a/otros_sitios/diarioYaqui/scrapy.cfg
+++ b/otros_sitios/diarioYaqui/scrapy.cfg
--- a/otros_sitios/laJornadaGro/laJornadaGro/__init__.py
+++ b/otros_sitios/laJornadaGro/laJornadaGro/__init__.py
--- a/sitios_yucatan/diarioYucatan/diarioYucatan/__init__.pyc
+++ b/sitios_yucatan/diarioYucatan/diarioYucatan/__init__.pyc
--- a/sitios_yucatan/diarioYucatan/diarioYucatan/items.py
+++ b/sitios_yucatan/diarioYucatan/diarioYucatan/items.py
--- a/sitios_yucatan/diarioYucatan/diarioYucatan/pipelines.py
+++ b/sitios_yucatan/diarioYucatan/diarioYucatan/pipelines.py
--- a/sitios_yucatan/diarioYucatan/diarioYucatan/settings.py
+++ b/sitios_yucatan/diarioYucatan/diarioYucatan/settings.py
--- a/sitios_yucatan/diarioYucatan/diarioYucatan/settings.pyc
+++ b/sitios_yucatan/diarioYucatan/diarioYucatan/settings.pyc
--- a/otros_sitios/laJornadaGro/laJornadaGro/spiders/__init__.py
+++ b/otros_sitios/laJornadaGro/laJornadaGro/spiders/__init__.py
--- a/sitios_yucatan/diarioYucatan/diarioYucatan/spiders/__init__.pyc
+++ b/sitios_yucatan/diarioYucatan/diarioYucatan/spiders/__init__.pyc
--- a/sitios_yucatan/diarioYucatan/diarioYucatan/spiders/noticias.py
+++ b/sitios_yucatan/diarioYucatan/diarioYucatan/spiders/noticias.py
--- a/sitios_yucatan/diarioYucatan/diarioYucatan/spiders/noticias.pyc
+++ b/sitios_yucatan/diarioYucatan/diarioYucatan/spiders/noticias.pyc
--- a/sitios_yucatan/diarioYucatan/scrapy.cfg
+++ b/sitios_yucatan/diarioYucatan/scrapy.cfg
--- a/otros_sitios/laJornadaMaya/laJornadaMaya/__init__.py
+++ b/otros_sitios/laJornadaMaya/laJornadaMaya/__init__.py
--- a/sitios_yucatan/grilloPorteno/grilloPorteno/__init__.pyc
+++ b/sitios_yucatan/grilloPorteno/grilloPorteno/__init__.pyc
--- a/sitios_yucatan/grilloPorteno/grilloPorteno/items.py
+++ b/sitios_yucatan/grilloPorteno/grilloPorteno/items.py
--- a/sitios_yucatan/grilloPorteno/grilloPorteno/middlewares.py
+++ b/sitios_yucatan/grilloPorteno/grilloPorteno/middlewares.py
--- a/sitios_yucatan/grilloPorteno/grilloPorteno/pipelines.py
+++ b/sitios_yucatan/grilloPorteno/grilloPorteno/pipelines.py
--- a/sitios_yucatan/grilloPorteno/grilloPorteno/settings.py
+++ b/sitios_yucatan/grilloPorteno/grilloPorteno/settings.py
--- a/sitios_yucatan/grilloPorteno/grilloPorteno/settings.pyc
+++ b/sitios_yucatan/grilloPorteno/grilloPorteno/settings.pyc
--- a/otros_sitios/laJornadaMaya/laJornadaMaya/spiders/__init__.py
+++ b/otros_sitios/laJornadaMaya/laJornadaMaya/spiders/__init__.py
--- a/sitios_yucatan/grilloPorteno/grilloPorteno/spiders/__init__.pyc
+++ b/sitios_yucatan/grilloPorteno/grilloPorteno/spiders/__init__.pyc
--- a/sitios_yucatan/grilloPorteno/grilloPorteno/spiders/noticias.py
+++ b/sitios_yucatan/grilloPorteno/grilloPorteno/spiders/noticias.py
--- a/sitios_yucatan/grilloPorteno/grilloPorteno/spiders/noticias.pyc
+++ b/sitios_yucatan/grilloPorteno/grilloPorteno/spiders/noticias.pyc
--- a/sitios_yucatan/grilloPorteno/grilloPorteno/spiders/noticiasGrillo.pyc
+++ b/sitios_yucatan/grilloPorteno/grilloPorteno/spiders/noticiasGrillo.pyc
--- a/sitios_yucatan/grilloPorteno/scrapy.cfg
+++ b/sitios_yucatan/grilloPorteno/scrapy.cfg
--- a/otros_sitios/laJornadaMaya2/laJornadaMaya2/__init__.py
+++ b/otros_sitios/laJornadaMaya2/laJornadaMaya2/__init__.py
--- a/otros_sitios/laJornada/laJornada/__init__.pyc
+++ b/otros_sitios/laJornada/laJornada/__init__.pyc
--- a/otros_sitios/laJornada/laJornada/items.py
+++ b/otros_sitios/laJornada/laJornada/items.py
--- a/otros_sitios/laJornada/laJornada/middlewares.py
+++ b/otros_sitios/laJornada/laJornada/middlewares.py
--- a/otros_sitios/laJornada/laJornada/pipelines.py
+++ b/otros_sitios/laJornada/laJornada/pipelines.py
--- a/otros_sitios/laJornada/laJornada/settings.py
+++ b/otros_sitios/laJornada/laJornada/settings.py
--- a/otros_sitios/laJornada/laJornada/settings.pyc
+++ b/otros_sitios/laJornada/laJornada/settings.pyc
--- a/otros_sitios/laJornadaMaya2/laJornadaMaya2/spiders/__init__.py
+++ b/otros_sitios/laJornadaMaya2/laJornadaMaya2/spiders/__init__.py
--- a/otros_sitios/laJornada/laJornada/spiders/__init__.pyc
+++ b/otros_sitios/laJornada/laJornada/spiders/__init__.pyc
--- a/otros_sitios/laJornada/laJornada/spiders/noticias.py
+++ b/otros_sitios/laJornada/laJornada/spiders/noticias.py
@@ -8,17 +8,17 @@ import re
 TAG_RE = re.compile(r'<[^>]+>')
 def remove_tags(text):
-    return TAG_RE.sub('', text)
+	return TAG_RE.sub('', text)
 class NoticiasItem(scrapy.Item):
-    title = scrapy.Field()
+	title = scrapy.Field()
-    text = scrapy.Field()
+	text = scrapy.Field()
-    date = scrapy.Field()
+	date = scrapy.Field()
-    location = scrapy.Field()
+	location = scrapy.Field()
-    author = scrapy.Field()
+	author = scrapy.Field()
-    topic = scrapy.Field()
+	topic = scrapy.Field()
-    url = scrapy.Field()
+	url = scrapy.Field()
 class QuotesSpider(scrapy.Spider):
@@ -49,10 +49,10 @@ class QuotesSpider(scrapy.Spider):
 			section = response.url[response.url.rfind('/')+1:]
 			if ( section == 'opinion' ):   # la seccion 'opinion' tiene una estructura diferente a las otras
 				path_list = ['//*[@id="columnas"]/p/a/@href',
-							 '//*[@id="opinion"]/p/a/@href']
+							 			 '//*[@id="opinion"]/p/a/@href']
 			else:
 				path_list = ['//*[@id="article_list"]/h2/a/@href',
-						 	 '//*[@id="article_list"]/h3/a/@href']
+										 '//*[@id="article_list"]/h3/a/@href']
 			for path in path_list:
 				for link in response.xpath(path).extract():

--- a/otros_sitios/laJornada/laJornada/spiders/noticias.pyc
+++ b/otros_sitios/laJornada/laJornada/spiders/noticias.pyc
--- a/descarga_por_dia/laJornada/noticias.json
+++ b/descarga_por_dia/laJornada/noticias.json
--- a/otros_sitios/laJornada/scrapy.cfg
+++ b/otros_sitios/laJornada/scrapy.cfg
--- a/otros_sitios/laJornadaOte/laJornadaOte/__init__.py
+++ b/otros_sitios/laJornadaOte/laJornadaOte/__init__.py
--- a/otros_sitios/laJornadaAgs/laJornadaAgs/__init__.pyc
+++ b/otros_sitios/laJornadaAgs/laJornadaAgs/__init__.pyc
--- a/otros_sitios/laJornadaAgs/laJornadaAgs/items.py
+++ b/otros_sitios/laJornadaAgs/laJornadaAgs/items.py
--- a/otros_sitios/laJornadaAgs/laJornadaAgs/middlewares.py
+++ b/otros_sitios/laJornadaAgs/laJornadaAgs/middlewares.py
--- a/otros_sitios/laJornadaAgs/laJornadaAgs/pipelines.py
+++ b/otros_sitios/laJornadaAgs/laJornadaAgs/pipelines.py
--- a/otros_sitios/laJornadaAgs/laJornadaAgs/settings.py
+++ b/otros_sitios/laJornadaAgs/laJornadaAgs/settings.py
--- a/otros_sitios/laJornadaAgs/laJornadaAgs/settings.pyc
+++ b/otros_sitios/laJornadaAgs/laJornadaAgs/settings.pyc
--- a/otros_sitios/laJornadaOte/laJornadaOte/spiders/__init__.py
+++ b/otros_sitios/laJornadaOte/laJornadaOte/spiders/__init__.py
--- a/otros_sitios/laJornadaAgs/laJornadaAgs/spiders/__init__.pyc
+++ b/otros_sitios/laJornadaAgs/laJornadaAgs/spiders/__init__.pyc
--- a/otros_sitios/laJornadaAgs/laJornadaAgs/spiders/noticias.py
+++ b/otros_sitios/laJornadaAgs/laJornadaAgs/spiders/noticias.py
--- a/otros_sitios/laJornadaAgs/laJornadaAgs/spiders/noticias.pyc
+++ b/otros_sitios/laJornadaAgs/laJornadaAgs/spiders/noticias.pyc
--- a/otros_sitios/laJornadaAgs/scrapy.cfg
+++ b/otros_sitios/laJornadaAgs/scrapy.cfg
--- a/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/__init__.py
+++ b/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/__init__.py
--- a/otros_sitios/laJornadaBC/laJornadaBC/__init__.pyc
+++ b/otros_sitios/laJornadaBC/laJornadaBC/__init__.pyc
--- a/otros_sitios/laJornadaBC/laJornadaBC/items.py
+++ b/otros_sitios/laJornadaBC/laJornadaBC/items.py
--- a/otros_sitios/laJornadaBC/laJornadaBC/middlewares.py
+++ b/otros_sitios/laJornadaBC/laJornadaBC/middlewares.py
--- a/otros_sitios/laJornadaBC/laJornadaBC/pipelines.py
+++ b/otros_sitios/laJornadaBC/laJornadaBC/pipelines.py
--- a/otros_sitios/laJornadaBC/laJornadaBC/settings.py
+++ b/otros_sitios/laJornadaBC/laJornadaBC/settings.py
--- a/otros_sitios/laJornadaBC/laJornadaBC/settings.pyc
+++ b/otros_sitios/laJornadaBC/laJornadaBC/settings.pyc
--- a/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/spiders/__init__.py
+++ b/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/spiders/__init__.py
--- a/otros_sitios/laJornadaBC/laJornadaBC/spiders/__init__.pyc
+++ b/otros_sitios/laJornadaBC/laJornadaBC/spiders/__init__.pyc
--- a/otros_sitios/laJornadaBC/laJornadaBC/spiders/noticias.py
+++ b/otros_sitios/laJornadaBC/laJornadaBC/spiders/noticias.py
--- a/otros_sitios/laJornadaBC/laJornadaBC/spiders/noticias.pyc
+++ b/otros_sitios/laJornadaBC/laJornadaBC/spiders/noticias.pyc
--- a/otros_sitios/laJornadaBC/scrapy.cfg
+++ b/otros_sitios/laJornadaBC/scrapy.cfg
--- a/otros_sitios/laJornadaVer/laJornadaVer/__init__.py
+++ b/otros_sitios/laJornadaVer/laJornadaVer/__init__.py
--- a/otros_sitios/laJornadaGro/laJornadaGro/__init__.pyc
+++ b/otros_sitios/laJornadaGro/laJornadaGro/__init__.pyc
--- a/otros_sitios/laJornadaGro/laJornadaGro/items.py
+++ b/otros_sitios/laJornadaGro/laJornadaGro/items.py
--- a/otros_sitios/laJornadaGro/laJornadaGro/middlewares.py
+++ b/otros_sitios/laJornadaGro/laJornadaGro/middlewares.py
--- a/otros_sitios/laJornadaGro/laJornadaGro/pipelines.py
+++ b/otros_sitios/laJornadaGro/laJornadaGro/pipelines.py
--- a/otros_sitios/laJornadaGro/laJornadaGro/settings.py
+++ b/otros_sitios/laJornadaGro/laJornadaGro/settings.py
--- a/otros_sitios/laJornadaGro/laJornadaGro/settings.pyc
+++ b/otros_sitios/laJornadaGro/laJornadaGro/settings.pyc
--- a/otros_sitios/laJornadaVer/laJornadaVer/spiders/__init__.py
+++ b/otros_sitios/laJornadaVer/laJornadaVer/spiders/__init__.py
--- a/otros_sitios/laJornadaGro/laJornadaGro/spiders/__init__.pyc
+++ b/otros_sitios/laJornadaGro/laJornadaGro/spiders/__init__.pyc
--- a/otros_sitios/laJornadaGro/laJornadaGro/spiders/noticias.py
+++ b/otros_sitios/laJornadaGro/laJornadaGro/spiders/noticias.py
--- a/otros_sitios/laJornadaGro/laJornadaGro/spiders/noticias.pyc
+++ b/otros_sitios/laJornadaGro/laJornadaGro/spiders/noticias.pyc
--- a/otros_sitios/laJornadaGro/scrapy.cfg
+++ b/otros_sitios/laJornadaGro/scrapy.cfg
--- a/otros_sitios/laJornadaZac/laJornadaZac/__init__.py
+++ b/otros_sitios/laJornadaZac/laJornadaZac/__init__.py
--- a/otros_sitios/laJornadaMaya/laJornadaMaya/__init__.pyc
+++ b/otros_sitios/laJornadaMaya/laJornadaMaya/__init__.pyc
--- a/otros_sitios/laJornadaMaya/laJornadaMaya/items.py
+++ b/otros_sitios/laJornadaMaya/laJornadaMaya/items.py
--- a/otros_sitios/laJornadaMaya/laJornadaMaya/middlewares.py
+++ b/otros_sitios/laJornadaMaya/laJornadaMaya/middlewares.py
--- a/otros_sitios/laJornadaMaya/laJornadaMaya/pipelines.py
+++ b/otros_sitios/laJornadaMaya/laJornadaMaya/pipelines.py
--- a/otros_sitios/laJornadaMaya/laJornadaMaya/settings.py
+++ b/otros_sitios/laJornadaMaya/laJornadaMaya/settings.py
--- a/otros_sitios/laJornadaMaya/laJornadaMaya/settings.pyc
+++ b/otros_sitios/laJornadaMaya/laJornadaMaya/settings.pyc
--- a/otros_sitios/laJornadaZac/laJornadaZac/spiders/__init__.py
+++ b/otros_sitios/laJornadaZac/laJornadaZac/spiders/__init__.py
--- a/otros_sitios/laJornadaMaya/laJornadaMaya/spiders/__init__.pyc
+++ b/otros_sitios/laJornadaMaya/laJornadaMaya/spiders/__init__.pyc
--- a/otros_sitios/laJornadaMaya/laJornadaMaya/spiders/noticias.py
+++ b/otros_sitios/laJornadaMaya/laJornadaMaya/spiders/noticias.py
--- a/otros_sitios/laJornadaMaya/laJornadaMaya/spiders/noticias.pyc
+++ b/otros_sitios/laJornadaMaya/laJornadaMaya/spiders/noticias.pyc
--- a/otros_sitios/laJornadaMaya/scrapy.cfg
+++ b/otros_sitios/laJornadaMaya/scrapy.cfg
--- a/otros_sitios/lajornada/lajornada/__init__.py
+++ b/otros_sitios/lajornada/lajornada/__init__.py
--- a/otros_sitios/laJornadaOte/laJornadaOte/__init__.pyc
+++ b/otros_sitios/laJornadaOte/laJornadaOte/__init__.pyc
--- a/otros_sitios/laJornadaOte/laJornadaOte/items.py
+++ b/otros_sitios/laJornadaOte/laJornadaOte/items.py
--- a/otros_sitios/laJornadaOte/laJornadaOte/middlewares.py
+++ b/otros_sitios/laJornadaOte/laJornadaOte/middlewares.py
--- a/otros_sitios/laJornadaOte/laJornadaOte/pipelines.py
+++ b/otros_sitios/laJornadaOte/laJornadaOte/pipelines.py
--- a/otros_sitios/laJornadaOte/laJornadaOte/settings.py
+++ b/otros_sitios/laJornadaOte/laJornadaOte/settings.py
--- a/otros_sitios/laJornadaOte/laJornadaOte/settings.pyc
+++ b/otros_sitios/laJornadaOte/laJornadaOte/settings.pyc
--- a/otros_sitios/lajornada/lajornada/spiders/__init__.py
+++ b/otros_sitios/lajornada/lajornada/spiders/__init__.py
--- a/otros_sitios/laJornadaOte/laJornadaOte/spiders/__init__.pyc
+++ b/otros_sitios/laJornadaOte/laJornadaOte/spiders/__init__.pyc
--- a/otros_sitios/laJornadaOte/laJornadaOte/spiders/noticias.py
+++ b/otros_sitios/laJornadaOte/laJornadaOte/spiders/noticias.py
--- a/otros_sitios/laJornadaOte/laJornadaOte/spiders/noticias.pyc
+++ b/otros_sitios/laJornadaOte/laJornadaOte/spiders/noticias.pyc
--- a/otros_sitios/laJornadaOte/scrapy.cfg
+++ b/otros_sitios/laJornadaOte/scrapy.cfg
--- a/otros_sitios/proceso/proceso/__init__.py
+++ b/otros_sitios/proceso/proceso/__init__.py
--- a/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/__init__.pyc
+++ b/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/__init__.pyc
--- a/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/items.py
+++ b/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/items.py
--- a/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/middlewares.py
+++ b/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/middlewares.py
--- a/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/pipelines.py
+++ b/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/pipelines.py
--- a/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/settings.py
+++ b/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/settings.py
--- a/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/settings.pyc
+++ b/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/settings.pyc
--- a/otros_sitios/proceso/proceso/spiders/__init__.py
+++ b/otros_sitios/proceso/proceso/spiders/__init__.py
--- a/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/spiders/__init__.pyc
+++ b/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/spiders/__init__.pyc
--- a/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/spiders/noticias.py
+++ b/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/spiders/noticias.py
--- a/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/spiders/noticias.pyc
+++ b/otros_sitios/laJornadaSanLuis/laJornadaSanLuis/spiders/noticias.pyc
--- a/otros_sitios/laJornadaSanLuis/scrapy.cfg
+++ b/otros_sitios/laJornadaSanLuis/scrapy.cfg
--- a/sitios_yucatan/alChile/alChile/__init__.py
+++ b/sitios_yucatan/alChile/alChile/__init__.py
--- a/otros_sitios/laJornadaVer/laJornadaVer/__init__.pyc
+++ b/otros_sitios/laJornadaVer/laJornadaVer/__init__.pyc
--- a/otros_sitios/laJornadaVer/laJornadaVer/items.py
+++ b/otros_sitios/laJornadaVer/laJornadaVer/items.py
--- a/otros_sitios/laJornadaVer/laJornadaVer/middlewares.py
+++ b/otros_sitios/laJornadaVer/laJornadaVer/middlewares.py
--- a/otros_sitios/laJornadaVer/laJornadaVer/pipelines.py
+++ b/otros_sitios/laJornadaVer/laJornadaVer/pipelines.py
--- a/otros_sitios/laJornadaVer/laJornadaVer/settings.py
+++ b/otros_sitios/laJornadaVer/laJornadaVer/settings.py
--- a/otros_sitios/laJornadaVer/laJornadaVer/settings.pyc
+++ b/otros_sitios/laJornadaVer/laJornadaVer/settings.pyc
--- a/sitios_yucatan/alChile/alChile/spiders/__init__.py
+++ b/sitios_yucatan/alChile/alChile/spiders/__init__.py
--- a/otros_sitios/laJornadaVer/laJornadaVer/spiders/__init__.pyc
+++ b/otros_sitios/laJornadaVer/laJornadaVer/spiders/__init__.pyc
--- a/otros_sitios/laJornadaVer/laJornadaVer/spiders/noticias.py
+++ b/otros_sitios/laJornadaVer/laJornadaVer/spiders/noticias.py
--- a/otros_sitios/laJornadaVer/laJornadaVer/spiders/noticias.pyc
+++ b/otros_sitios/laJornadaVer/laJornadaVer/spiders/noticias.pyc
--- a/otros_sitios/laJornadaVer/scrapy.cfg
+++ b/otros_sitios/laJornadaVer/scrapy.cfg
--- a/sitios_yucatan/desdeElBalcon/desdeElBalcon/__init__.py
+++ b/sitios_yucatan/desdeElBalcon/desdeElBalcon/__init__.py
--- a/otros_sitios/laJornadaZac/laJornadaZac/__init__.pyc
+++ b/otros_sitios/laJornadaZac/laJornadaZac/__init__.pyc
--- a/otros_sitios/laJornadaZac/laJornadaZac/items.py
+++ b/otros_sitios/laJornadaZac/laJornadaZac/items.py
--- a/otros_sitios/laJornadaZac/laJornadaZac/middlewares.py
+++ b/otros_sitios/laJornadaZac/laJornadaZac/middlewares.py
--- a/otros_sitios/laJornadaZac/laJornadaZac/pipelines.py
+++ b/otros_sitios/laJornadaZac/laJornadaZac/pipelines.py
--- a/otros_sitios/laJornadaZac/laJornadaZac/settings.py
+++ b/otros_sitios/laJornadaZac/laJornadaZac/settings.py
--- a/otros_sitios/laJornadaZac/laJornadaZac/settings.pyc
+++ b/otros_sitios/laJornadaZac/laJornadaZac/settings.pyc
--- a/sitios_yucatan/desdeElBalcon/desdeElBalcon/spiders/__init__.py
+++ b/sitios_yucatan/desdeElBalcon/desdeElBalcon/spiders/__init__.py
--- a/otros_sitios/laJornadaZac/laJornadaZac/spiders/__init__.pyc
+++ b/otros_sitios/laJornadaZac/laJornadaZac/spiders/__init__.pyc
--- a/otros_sitios/laJornadaZac/laJornadaZac/spiders/noticias.py
+++ b/otros_sitios/laJornadaZac/laJornadaZac/spiders/noticias.py
--- a/otros_sitios/laJornadaZac/laJornadaZac/spiders/noticias.pyc
+++ b/otros_sitios/laJornadaZac/laJornadaZac/spiders/noticias.pyc
--- a/otros_sitios/laJornadaZac/scrapy.cfg
+++ b/otros_sitios/laJornadaZac/scrapy.cfg
--- a/sitios_yucatan/diarioYucatan/diarioYucatan/__init__.py
+++ b/sitios_yucatan/diarioYucatan/diarioYucatan/__init__.py
--- a/sitios_yucatan/laVerdadYuc/laVerdadYuc/__init__.pyc
+++ b/sitios_yucatan/laVerdadYuc/laVerdadYuc/__init__.pyc
--- a/sitios_yucatan/laVerdadYuc/laVerdadYuc/items.py
+++ b/sitios_yucatan/laVerdadYuc/laVerdadYuc/items.py
--- a/sitios_yucatan/laVerdadYuc/laVerdadYuc/middlewares.py
+++ b/sitios_yucatan/laVerdadYuc/laVerdadYuc/middlewares.py
--- a/sitios_yucatan/laVerdadYuc/laVerdadYuc/pipelines.py
+++ b/sitios_yucatan/laVerdadYuc/laVerdadYuc/pipelines.py
--- a/sitios_yucatan/laVerdadYuc/laVerdadYuc/settings.py
+++ b/sitios_yucatan/laVerdadYuc/laVerdadYuc/settings.py
--- a/sitios_yucatan/laVerdadYuc/laVerdadYuc/settings.pyc
+++ b/sitios_yucatan/laVerdadYuc/laVerdadYuc/settings.pyc
--- a/sitios_yucatan/diarioYucatan/diarioYucatan/spiders/__init__.py
+++ b/sitios_yucatan/diarioYucatan/diarioYucatan/spiders/__init__.py
--- a/sitios_yucatan/laVerdadYuc/laVerdadYuc/spiders/__init__.pyc
+++ b/sitios_yucatan/laVerdadYuc/laVerdadYuc/spiders/__init__.pyc
--- a/sitios_yucatan/laVerdadYuc/laVerdadYuc/spiders/noticias.py
+++ b/sitios_yucatan/laVerdadYuc/laVerdadYuc/spiders/noticias.py
--- a/sitios_yucatan/laVerdadYuc/laVerdadYuc/spiders/noticias.pyc
+++ b/sitios_yucatan/laVerdadYuc/laVerdadYuc/spiders/noticias.pyc
--- a/sitios_yucatan/laVerdadYuc/laVerdadYuc/spiders/noticiasVerdad.pyc
+++ b/sitios_yucatan/laVerdadYuc/laVerdadYuc/spiders/noticiasVerdad.pyc
--- a/sitios_yucatan/laVerdadYuc/scrapy.cfg
+++ b/sitios_yucatan/laVerdadYuc/scrapy.cfg
--- a/sitios_yucatan/diarioYucatan2/diarioYucatan2/__init__.py
+++ b/sitios_yucatan/diarioYucatan2/diarioYucatan2/__init__.py
--- a/sitios_yucatan/lectorMX/lectorMX/__init__.pyc
+++ b/sitios_yucatan/lectorMX/lectorMX/__init__.pyc
--- a/sitios_yucatan/lectorMX/lectorMX/items.py
+++ b/sitios_yucatan/lectorMX/lectorMX/items.py
--- a/sitios_yucatan/lectorMX/lectorMX/middlewares.py
+++ b/sitios_yucatan/lectorMX/lectorMX/middlewares.py
--- a/sitios_yucatan/lectorMX/lectorMX/pipelines.py
+++ b/sitios_yucatan/lectorMX/lectorMX/pipelines.py
--- a/sitios_yucatan/lectorMX/lectorMX/settings.py
+++ b/sitios_yucatan/lectorMX/lectorMX/settings.py
--- a/sitios_yucatan/lectorMX/lectorMX/settings.pyc
+++ b/sitios_yucatan/lectorMX/lectorMX/settings.pyc
--- a/sitios_yucatan/diarioYucatan2/diarioYucatan2/spiders/__init__.py
+++ b/sitios_yucatan/diarioYucatan2/diarioYucatan2/spiders/__init__.py
--- a/sitios_yucatan/lectorMX/lectorMX/spiders/__init__.pyc
+++ b/sitios_yucatan/lectorMX/lectorMX/spiders/__init__.pyc
--- a/sitios_yucatan/lectorMX/lectorMX/spiders/noticias.py
+++ b/sitios_yucatan/lectorMX/lectorMX/spiders/noticias.py
--- a/sitios_yucatan/lectorMX/lectorMX/spiders/noticias.pyc
+++ b/sitios_yucatan/lectorMX/lectorMX/spiders/noticias.pyc
--- a/sitios_yucatan/lectorMX/scrapy.cfg
+++ b/sitios_yucatan/lectorMX/scrapy.cfg
--- a/sitios_yucatan/grilloPorteno/grilloPorteno/__init__.py
+++ b/sitios_yucatan/grilloPorteno/grilloPorteno/__init__.py
--- a/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/__init__.pyc
+++ b/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/__init__.pyc
--- a/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/items.py
+++ b/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/items.py
--- a/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/middlewares.py
+++ b/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/middlewares.py
--- a/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/pipelines.py
+++ b/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/pipelines.py
--- a/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/settings.py
+++ b/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/settings.py
--- a/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/settings.pyc
+++ b/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/settings.pyc
--- a/sitios_yucatan/grilloPorteno/grilloPorteno/spiders/__init__.py
+++ b/sitios_yucatan/grilloPorteno/grilloPorteno/spiders/__init__.py
--- a/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/spiders/__init__.pyc
+++ b/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/spiders/__init__.pyc
--- a/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/spiders/noticias.py
+++ b/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/spiders/noticias.py
--- a/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/spiders/noticias.pyc
+++ b/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/spiders/noticias.pyc
--- a/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/spiders/puntoDeVista.pyc
+++ b/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/spiders/puntoDeVista.pyc
--- a/sitios_yucatan/miPuntoDeVista/scrapy.cfg
+++ b/sitios_yucatan/miPuntoDeVista/scrapy.cfg
--- a/sitios_yucatan/laVerdadYuc/laVerdadYuc/__init__.py
+++ b/sitios_yucatan/laVerdadYuc/laVerdadYuc/__init__.py
--- a/sitios_yucatan/notirivas/notirivas/__init__.pyc
+++ b/sitios_yucatan/notirivas/notirivas/__init__.pyc
--- a/sitios_yucatan/notirivas/notirivas/items.py
+++ b/sitios_yucatan/notirivas/notirivas/items.py
--- a/sitios_yucatan/notirivas/notirivas/middlewares.py
+++ b/sitios_yucatan/notirivas/notirivas/middlewares.py
--- a/sitios_yucatan/notirivas/notirivas/pipelines.py
+++ b/sitios_yucatan/notirivas/notirivas/pipelines.py
--- a/sitios_yucatan/notirivas/notirivas/settings.py
+++ b/sitios_yucatan/notirivas/notirivas/settings.py
--- a/sitios_yucatan/notirivas/notirivas/settings.pyc
+++ b/sitios_yucatan/notirivas/notirivas/settings.pyc
--- a/sitios_yucatan/laVerdadYuc/laVerdadYuc/spiders/__init__.py
+++ b/sitios_yucatan/laVerdadYuc/laVerdadYuc/spiders/__init__.py
--- a/sitios_yucatan/notirivas/notirivas/spiders/__init__.pyc
+++ b/sitios_yucatan/notirivas/notirivas/spiders/__init__.pyc
--- a/sitios_yucatan/notirivas/notirivas/spiders/noticias.py
+++ b/sitios_yucatan/notirivas/notirivas/spiders/noticias.py
--- a/sitios_yucatan/notirivas/notirivas/spiders/noticias.pyc
+++ b/sitios_yucatan/notirivas/notirivas/spiders/noticias.pyc
--- a/sitios_yucatan/notirivas/scrapy.cfg
+++ b/sitios_yucatan/notirivas/scrapy.cfg
--- a/sitios_yucatan/lectorMX/lectorMX/__init__.py
+++ b/sitios_yucatan/lectorMX/lectorMX/__init__.py
--- a/sitios_yucatan/notisureste/notisureste/__init__.pyc
+++ b/sitios_yucatan/notisureste/notisureste/__init__.pyc
--- a/sitios_yucatan/notisureste/notisureste/items.py
+++ b/sitios_yucatan/notisureste/notisureste/items.py
--- a/sitios_yucatan/notisureste/notisureste/middlewares.py
+++ b/sitios_yucatan/notisureste/notisureste/middlewares.py
--- a/sitios_yucatan/notisureste/notisureste/pipelines.py
+++ b/sitios_yucatan/notisureste/notisureste/pipelines.py
--- a/sitios_yucatan/notisureste/notisureste/settings.py
+++ b/sitios_yucatan/notisureste/notisureste/settings.py
--- a/sitios_yucatan/notisureste/notisureste/settings.pyc
+++ b/sitios_yucatan/notisureste/notisureste/settings.pyc
--- a/sitios_yucatan/lectorMX/lectorMX/spiders/__init__.py
+++ b/sitios_yucatan/lectorMX/lectorMX/spiders/__init__.py
--- a/sitios_yucatan/notisureste/notisureste/spiders/__init__.pyc
+++ b/sitios_yucatan/notisureste/notisureste/spiders/__init__.pyc
--- a/sitios_yucatan/notisureste/notisureste/spiders/noticias.py
+++ b/sitios_yucatan/notisureste/notisureste/spiders/noticias.py
--- a/sitios_yucatan/notisureste/notisureste/spiders/noticias.pyc
+++ b/sitios_yucatan/notisureste/notisureste/spiders/noticias.pyc
--- a/sitios_yucatan/notisureste/notisureste/spiders/notisureste.pyc
+++ b/sitios_yucatan/notisureste/notisureste/spiders/notisureste.pyc
--- a/sitios_yucatan/notisureste/scrapy.cfg
+++ b/sitios_yucatan/notisureste/scrapy.cfg
--- a/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/__init__.py
+++ b/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/__init__.py
--- a/sitios_yucatan/puntoMedio/puntoMedio/__init__.pyc
+++ b/sitios_yucatan/puntoMedio/puntoMedio/__init__.pyc
--- a/sitios_yucatan/puntoMedio/puntoMedio/items.py
+++ b/sitios_yucatan/puntoMedio/puntoMedio/items.py
--- a/sitios_yucatan/puntoMedio/puntoMedio/middlewares.py
+++ b/sitios_yucatan/puntoMedio/puntoMedio/middlewares.py
--- a/sitios_yucatan/puntoMedio/puntoMedio/pipelines.py
+++ b/sitios_yucatan/puntoMedio/puntoMedio/pipelines.py
--- a/sitios_yucatan/puntoMedio/puntoMedio/settings.py
+++ b/sitios_yucatan/puntoMedio/puntoMedio/settings.py
--- a/sitios_yucatan/puntoMedio/puntoMedio/settings.pyc
+++ b/sitios_yucatan/puntoMedio/puntoMedio/settings.pyc
--- a/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/spiders/__init__.py
+++ b/sitios_yucatan/miPuntoDeVista/miPuntoDeVista/spiders/__init__.py
--- a/sitios_yucatan/puntoMedio/puntoMedio/spiders/__init__.pyc
+++ b/sitios_yucatan/puntoMedio/puntoMedio/spiders/__init__.pyc
--- a/sitios_yucatan/puntoMedio/puntoMedio/spiders/noticias.py
+++ b/sitios_yucatan/puntoMedio/puntoMedio/spiders/noticias.py
--- a/sitios_yucatan/puntoMedio/puntoMedio/spiders/noticias.pyc
+++ b/sitios_yucatan/puntoMedio/puntoMedio/spiders/noticias.pyc
--- a/sitios_yucatan/puntoMedio/scrapy.cfg
+++ b/sitios_yucatan/puntoMedio/scrapy.cfg
--- a/sitios_yucatan/sona893/scrapy.cfg
+++ b/sitios_yucatan/sona893/scrapy.cfg
--- a/sitios_yucatan/notirivas/notirivas/__init__.py
+++ b/sitios_yucatan/notirivas/notirivas/__init__.py
--- a/sitios_yucatan/sona893/sona893/__init__.pyc
+++ b/sitios_yucatan/sona893/sona893/__init__.pyc
--- a/sitios_yucatan/sona893/sona893/items.py
+++ b/sitios_yucatan/sona893/sona893/items.py
--- a/sitios_yucatan/sona893/sona893/middlewares.py
+++ b/sitios_yucatan/sona893/sona893/middlewares.py
--- a/sitios_yucatan/sona893/sona893/pipelines.py
+++ b/sitios_yucatan/sona893/sona893/pipelines.py
--- a/sitios_yucatan/sona893/sona893/settings.py
+++ b/sitios_yucatan/sona893/sona893/settings.py
--- a/sitios_yucatan/sona893/sona893/settings.pyc
+++ b/sitios_yucatan/sona893/sona893/settings.pyc
--- a/sitios_yucatan/notirivas/notirivas/spiders/__init__.py
+++ b/sitios_yucatan/notirivas/notirivas/spiders/__init__.py
--- a/sitios_yucatan/sona893/sona893/spiders/__init__.pyc
+++ b/sitios_yucatan/sona893/sona893/spiders/__init__.pyc
--- a/sitios_yucatan/sona893/sona893/spiders/noticias.py
+++ b/sitios_yucatan/sona893/sona893/spiders/noticias.py
--- a/sitios_yucatan/sona893/sona893/spiders/noticias.pyc
+++ b/sitios_yucatan/sona893/sona893/spiders/noticias.pyc
--- a/sitios_yucatan/sona893/sona893/spiders/noticiasSona.pyc
+++ b/sitios_yucatan/sona893/sona893/spiders/noticiasSona.pyc
--- a/sitios_yucatan/yucatanALaMano/scrapy.cfg
+++ b/sitios_yucatan/yucatanALaMano/scrapy.cfg
--- a/sitios_yucatan/notisureste/notisureste/__init__.py
+++ b/sitios_yucatan/notisureste/notisureste/__init__.py
--- a/sitios_yucatan/yucatanALaMano/yucatanALaMano/__init__.pyc
+++ b/sitios_yucatan/yucatanALaMano/yucatanALaMano/__init__.pyc
--- a/sitios_yucatan/yucatanALaMano/yucatanALaMano/items.py
+++ b/sitios_yucatan/yucatanALaMano/yucatanALaMano/items.py
--- a/sitios_yucatan/yucatanALaMano/yucatanALaMano/middlewares.py
+++ b/sitios_yucatan/yucatanALaMano/yucatanALaMano/middlewares.py
--- a/sitios_yucatan/yucatanALaMano/yucatanALaMano/pipelines.py
+++ b/sitios_yucatan/yucatanALaMano/yucatanALaMano/pipelines.py
--- a/sitios_yucatan/yucatanALaMano/yucatanALaMano/settings.py
+++ b/sitios_yucatan/yucatanALaMano/yucatanALaMano/settings.py
--- a/sitios_yucatan/yucatanALaMano/yucatanALaMano/settings.pyc
+++ b/sitios_yucatan/yucatanALaMano/yucatanALaMano/settings.pyc
--- a/sitios_yucatan/notisureste/notisureste/spiders/__init__.py
+++ b/sitios_yucatan/notisureste/notisureste/spiders/__init__.py
--- a/sitios_yucatan/yucatanALaMano/yucatanALaMano/spiders/__init__.pyc
+++ b/sitios_yucatan/yucatanALaMano/yucatanALaMano/spiders/__init__.pyc
--- a/sitios_yucatan/yucatanALaMano/yucatanALaMano/spiders/noticias.py
+++ b/sitios_yucatan/yucatanALaMano/yucatanALaMano/spiders/noticias.py
--- a/sitios_yucatan/yucatanALaMano/yucatanALaMano/spiders/noticias.pyc
+++ b/sitios_yucatan/yucatanALaMano/yucatanALaMano/spiders/noticias.pyc
--- a/sitios_yucatan/yucatanAlMinuto/scrapy.cfg
+++ b/sitios_yucatan/yucatanAlMinuto/scrapy.cfg
--- a/sitios_yucatan/puntoMedio/puntoMedio/__init__.py
+++ b/sitios_yucatan/puntoMedio/puntoMedio/__init__.py
--- a/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/__init__.pyc
+++ b/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/__init__.pyc
--- a/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/items.py
+++ b/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/items.py
--- a/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/pipelines.py
+++ b/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/pipelines.py
--- a/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/settings.py
+++ b/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/settings.py
--- a/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/settings.pyc
+++ b/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/settings.pyc
--- a/sitios_yucatan/puntoMedio/puntoMedio/spiders/__init__.py
+++ b/sitios_yucatan/puntoMedio/puntoMedio/spiders/__init__.py
--- a/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/spiders/__init__.pyc
+++ b/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/spiders/__init__.pyc
--- a/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/spiders/noticias.py
+++ b/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/spiders/noticias.py
--- a/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/spiders/noticias.pyc
+++ b/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/spiders/noticias.pyc
--- a/sitios_yucatan/yucatanEnCorto/scrapy.cfg
+++ b/sitios_yucatan/yucatanEnCorto/scrapy.cfg
--- a/sitios_yucatan/sona893/sona893/__init__.py
+++ b/sitios_yucatan/sona893/sona893/__init__.py
--- a/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/__init__.pyc
+++ b/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/__init__.pyc
--- a/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/items.py
+++ b/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/items.py
--- a/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/middlewares.py
+++ b/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/middlewares.py
--- a/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/pipelines.py
+++ b/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/pipelines.py
--- a/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/settings.py
+++ b/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/settings.py
--- a/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/settings.pyc
+++ b/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/settings.pyc
--- a/sitios_yucatan/sona893/sona893/spiders/__init__.py
+++ b/sitios_yucatan/sona893/sona893/spiders/__init__.py
--- a/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/spiders/__init__.pyc
+++ b/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/spiders/__init__.pyc
--- a/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/spiders/noticias.py
+++ b/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/spiders/noticias.py
--- a/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/spiders/noticias.pyc
+++ b/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/spiders/noticias.pyc
--- a/sitios_yucatan/yucatanALaMano/yucatanALaMano/__init__.py
+++ b/sitios_yucatan/yucatanALaMano/yucatanALaMano/__init__.py
--- a/otros_sitios/proceso/proceso/__init__.pyc
+++ b/otros_sitios/proceso/proceso/__init__.pyc
--- a/otros_sitios/proceso/proceso/items.py
+++ b/otros_sitios/proceso/proceso/items.py
--- a/otros_sitios/proceso/proceso/middlewares.py
+++ b/otros_sitios/proceso/proceso/middlewares.py
--- a/otros_sitios/proceso/proceso/pipelines.py
+++ b/otros_sitios/proceso/proceso/pipelines.py
--- a/otros_sitios/proceso/proceso/settings.py
+++ b/otros_sitios/proceso/proceso/settings.py
--- a/otros_sitios/proceso/proceso/settings.pyc
+++ b/otros_sitios/proceso/proceso/settings.pyc
--- a/sitios_yucatan/yucatanALaMano/yucatanALaMano/spiders/__init__.py
+++ b/sitios_yucatan/yucatanALaMano/yucatanALaMano/spiders/__init__.py
--- a/otros_sitios/proceso/proceso/spiders/__init__.pyc
+++ b/otros_sitios/proceso/proceso/spiders/__init__.pyc
--- a/otros_sitios/proceso/proceso/spiders/noticias.py
+++ b/otros_sitios/proceso/proceso/spiders/noticias.py
 import scrapy
-## scrapy crawl noticias -t json --nolog -o noticias.json -a year=2017 -a month=3 -a day=22
 import re
 from scrapy_splash import SplashRequest
 """
-Para este sitio se hace uso de scrapy-splash porque el contenido es cargago a traves de javascript
+Para este sitio se hace uso de 'scrapy-splash' porque el contenido es cargado a traves de javascript
+USO:
+scrapy crawl noticias -t json --nolog -o noticias.json -a year=2017 -a month=3
 """
 TAG_RE = re.compile(r'<[^>]+>')
@@ -29,19 +29,26 @@ class QuotesSpider(scrapy.Spider):
 	def start_requests(self):
 		year = getattr(self, 'year', None)
-		# month = getattr(self, 'month', None)
+		month = getattr(self, 'month', None)
 		# day = getattr(self, 'day', None)
-		self.baseURL='http://hemeroteca.proceso.com.mx/?page_id=111058&edicion=mexico&page='
+		parse_month = {'1': 'Enero',       '2': 'Febrero',  '3': 'Marzo',      '4': 'Abril',
-		this_year = 2017
+									 '5': 'Mayo',        '6': 'Junio',    '7': 'Julio',      '8': 'Agosto',
+									 '9': 'Septiembre', '10': 'Octubre', '11': 'Noviembre', '12': 'Diciembre'}
-		while this_year >= int(year):
+		self.date = parse_month[month]+' de '+year
-			yield scrapy.Request(url=self.baseURL+str(year), callback=self.parse)
-			this_year -= 1
+		self.baseURL='http://hemeroteca.proceso.com.mx/?page_id=111058&edicion=mexico&page='
+		yield scrapy.Request(url=self.baseURL+self.year, callback=self.parse)
 	def parse(self, response):
-		for link in response.xpath('//*[@class="catpor-post-thumb"]/a/@href').extract():
+		for post in response.css('div.catpor-box'):
-			yield scrapy.Request(url=link, callback=self.parse_2)
+			post_date = post.xpath('./div/span[@class="catpor-published clearfix"]/text()').extract_first()
+			post_date = post_date[post_date.find('d')+3:]
+			if post_date == self.date:
+				link = post.xpath('./div/div/a/@href').extract_first()
+				yield scrapy.Request(url=link, callback=self.parse_2)
 	def parse_2(self, response):

--- a/descarga_por_mes/proceso/proceso/spiders/noticias.pyc
+++ b/descarga_por_mes/proceso/proceso/spiders/noticias.pyc
--- a/otros_sitios/proceso/scrapy.cfg
+++ b/otros_sitios/proceso/scrapy.cfg
--- a/especs_sitio_proceso.txt
+++ b/especs_sitio_proceso.txt
@@ -36,8 +36,7 @@ Instalacion SPLASH
 > Inicializar el contenedor:
-	$ sudo docker run -p 8050:8050 scrapinghub/splash     ## con esto splash esta disponible en puerto 8050 (http)
+	$ sudo docker run -p 8050:8050 scrapinghub/splash     ## con esto splash esta disponible en puerto 8050 (http) en navegador (localhost:8050)
-																												##verificar en navegador (localhost:8050)
 Consulta: http://splash.readthedocs.io/en/latest/install.html

--- a/otros_sitios/lajornada/laJornadaCrawler.sh
+++ b/otros_sitios/lajornada/laJornadaCrawler.sh
-#!/bin/bash
-for y in `seq 2010 2016`;
-do
-	if [ ! -d $y ]; then
-	  mkdir -p $y;
-	fi
-	cd $y
-	for m in $(seq -f "%02g" 1 12)
-	do
-		for d in $(seq -f "%02g" 1 31)
-		do
-			scrapy crawl noticias -t json -o - > laJornada_$y-$m-$d.json -a year=$y -a month=$m -a day=$d
-# 			jsonlint-py -f laJornada_$y-$m-$d.json > laJornada_$y-$m-$d.json 
-		done
-	done
-	cd .. 
-done
--- a/otros_sitios/lajornada/lajornada/__init__.pyc
+++ b/otros_sitios/lajornada/lajornada/__init__.pyc
--- a/otros_sitios/lajornada/lajornada/items.py
+++ b/otros_sitios/lajornada/lajornada/items.py
-# -*- coding: utf-8 -*-
-# Define here the models for your scraped items
-#
-# See documentation in:
-# http://doc.scrapy.org/en/latest/topics/items.html
-import scrapy
-class LajornadaItem(scrapy.Item):
-    # define the fields for your item here like:
-    # name = scrapy.Field()
-    pass
--- a/otros_sitios/lajornada/lajornada/pipelines.py
+++ b/otros_sitios/lajornada/lajornada/pipelines.py
-# -*- coding: utf-8 -*-
-# Define your item pipelines here
-#
-# Don't forget to add your pipeline to the ITEM_PIPELINES setting
-# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
-class LajornadaPipeline(object):
-    def process_item(self, item, spider):
-        return item
--- a/otros_sitios/lajornada/lajornada/settings.py
+++ b/otros_sitios/lajornada/lajornada/settings.py
-# -*- coding: utf-8 -*-
-# Scrapy settings for lajornada project
-#
-# For simplicity, this file contains only settings considered important or
-# commonly used. You can find more settings consulting the documentation:
-#
-#     http://doc.scrapy.org/en/latest/topics/settings.html
-#     http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
-#     http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
-BOT_NAME = 'lajornada'
-SPIDER_MODULES = ['lajornada.spiders']
-NEWSPIDER_MODULE = 'lajornada.spiders'
-# Crawl responsibly by identifying yourself (and your website) on the user-agent
-#USER_AGENT = 'lajornada (+http://www.yourdomain.com)'
-# Configure maximum concurrent requests performed by Scrapy (default: 16)
-#CONCURRENT_REQUESTS=32
-# Configure a delay for requests for the same website (default: 0)
-# See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay
-# See also autothrottle settings and docs
-#DOWNLOAD_DELAY=3
-# The download delay setting will honor only one of:
-#CONCURRENT_REQUESTS_PER_DOMAIN=16
-#CONCURRENT_REQUESTS_PER_IP=16
-# Disable cookies (enabled by default)
-#COOKIES_ENABLED=False
-# Disable Telnet Console (enabled by default)
-#TELNETCONSOLE_ENABLED=False
-# Override the default request headers:
-#DEFAULT_REQUEST_HEADERS = {
-#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
-#   'Accept-Language': 'en',
-#}
-# Enable or disable spider middlewares
-# See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
-#SPIDER_MIDDLEWARES = {
-#    'lajornada.middlewares.MyCustomSpiderMiddleware': 543,
-#}
-# Enable or disable downloader middlewares
-# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
-#DOWNLOADER_MIDDLEWARES = {
-#    'lajornada.middlewares.MyCustomDownloaderMiddleware': 543,
-#}
-# Enable or disable extensions
-# See http://scrapy.readthedocs.org/en/latest/topics/extensions.html
-#EXTENSIONS = {
-#    'scrapy.telnet.TelnetConsole': None,
-#}
-# Configure item pipelines
-# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
-#ITEM_PIPELINES = {
-#    'lajornada.pipelines.SomePipeline': 300,
-#}
-# Enable and configure the AutoThrottle extension (disabled by default)
-# See http://doc.scrapy.org/en/latest/topics/autothrottle.html
-# NOTE: AutoThrottle will honour the standard settings for concurrency and delay
-#AUTOTHROTTLE_ENABLED=True
-# The initial download delay
-#AUTOTHROTTLE_START_DELAY=5
-# The maximum download delay to be set in case of high latencies
-#AUTOTHROTTLE_MAX_DELAY=60
-# Enable showing throttling stats for every response received:
-#AUTOTHROTTLE_DEBUG=False
-# Enable and configure HTTP caching (disabled by default)
-# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
-#HTTPCACHE_ENABLED=True
-#HTTPCACHE_EXPIRATION_SECS=0
-#HTTPCACHE_DIR='httpcache'
-#HTTPCACHE_IGNORE_HTTP_CODES=[]
-#HTTPCACHE_STORAGE='scrapy.extensions.httpcache.FilesystemCacheStorage'
--- a/otros_sitios/lajornada/lajornada/settings.pyc
+++ b/otros_sitios/lajornada/lajornada/settings.pyc
--- a/otros_sitios/lajornada/lajornada/spiders/__init__.pyc
+++ b/otros_sitios/lajornada/lajornada/spiders/__init__.pyc
--- a/otros_sitios/lajornada/lajornada/spiders/noticias.py
+++ b/otros_sitios/lajornada/lajornada/spiders/noticias.py
-"""@package laJornada_scrapy
-Crawlwer para la jornada.unam.mx
-uso:
-#scrapy crawl noticias -t json --nolog -o noticias.json -a year=2016 month=12 day=24
-"""
-import scrapy
-import re
-TAG_RE = re.compile(r'<[^>]+>')
-def remove_tags(text):
-	return TAG_RE.sub('', text)
-class NoticiasItem(scrapy.Item):
-	title = scrapy.Field()
-	text = scrapy.Field()
-	date = scrapy.Field()
-	location = scrapy.Field()
-	author = scrapy.Field()
-	topic = scrapy.Field()
-	url = scrapy.Field()
-class NoticiasSpider(scrapy.Spider):
-	name = "noticias"
-	def start_requests(self):
-		# Lista de url a explorar.
-		year = getattr(self, 'year', None)
-		month = getattr(self, 'month', None)
-		day = getattr(self, 'day', None)
-		self.baseURL='http://www.jornada.unam.mx/'+year+'/'+month+'/'+day+'/'
-		urls = [
-		   self.baseURL+"opinion",
-		   self.baseURL+"politica",
-		   self.baseURL+"economia",
-		   self.baseURL+"mundo",
-		   self.baseURL+"estados",
-		   self.baseURL+"capital",
-		   self.baseURL+"sociedad",
-		   self.baseURL+"ciencias",
-		   self.baseURL+"cultura",
-		   self.baseURL+"espectaculos",
-		   self.baseURL+"deporte",
-		]
-		for url in urls:
-			yield scrapy.Request(url=url, callback=self.parse)
-	def parse(self, response):
-		"""parser principal."""
-		item = NoticiasItem()
-		for noticia in response.css('a.cabeza'):
-			url = self.baseURL + noticia.css('::attr(href)').extract_first()
-			yield scrapy.Request(url, callback=self.parse_dir_contents)
-	def parse_dir_contents(self, response):
-		"""Parser para la pagina de cada noticia."""
-		item = NoticiasItem()
-		item['title'] = response.css('div.cabeza::text').extract_first()
-		item['url'] = response.url
-		item['author'] = response.css('div.credito-autor::text').extract_first()
-		item['location'] = response.css('p.s-s::text').extract_first()
-		item['text'] = remove_tags( response.css('div.text').extract_first() )
-		item['topic'] = response.css('img.title::attr(title)').extract_first()
-		yield item
\ No newline at end of file
--- a/otros_sitios/lajornada/lajornada/spiders/noticias.pyc
+++ b/otros_sitios/lajornada/lajornada/spiders/noticias.pyc
--- a/otros_sitios/lajornada/scrapy.cfg
+++ b/otros_sitios/lajornada/scrapy.cfg
-# Automatically created by: scrapy startproject
-#
-# For more information about the [deploy] section see:
-# https://scrapyd.readthedocs.org/en/latest/deploy.html
-[settings]
-default = lajornada.settings
-[deploy]
-#url = http://localhost:6800/
-project = lajornada
--- a/otros_sitios/proceso/noticias.json
+++ b/otros_sitios/proceso/noticias.json
--- a/otros_sitios/proceso/proceso/spiders/noticias.pyc
+++ b/otros_sitios/proceso/proceso/spiders/noticias.pyc
--- a/sitios_yucatan/diarioYucatan2/diarioYucatan2/__init__.pyc
+++ b/sitios_yucatan/diarioYucatan2/diarioYucatan2/__init__.pyc
--- a/sitios_yucatan/diarioYucatan2/diarioYucatan2/items.py
+++ b/sitios_yucatan/diarioYucatan2/diarioYucatan2/items.py
-# -*- coding: utf-8 -*-
-# Define here the models for your scraped items
-#
-# See documentation in:
-# http://doc.scrapy.org/en/latest/topics/items.html
-import scrapy
-class Diarioyucatan2Item(scrapy.Item):
-    # define the fields for your item here like:
-    # name = scrapy.Field()
-    pass
--- a/sitios_yucatan/diarioYucatan2/diarioYucatan2/middlewares.py
+++ b/sitios_yucatan/diarioYucatan2/diarioYucatan2/middlewares.py
-# -*- coding: utf-8 -*-
-# Define here the models for your spider middleware
-#
-# See documentation in:
-# http://doc.scrapy.org/en/latest/topics/spider-middleware.html
-from scrapy import signals
-class Diarioyucatan2SpiderMiddleware(object):
-    # Not all methods need to be defined. If a method is not defined,
-    # scrapy acts as if the spider middleware does not modify the
-    # passed objects.
-    @classmethod
-    def from_crawler(cls, crawler):
-        # This method is used by Scrapy to create your spiders.
-        s = cls()
-        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
-        return s
-    def process_spider_input(response, spider):
-        # Called for each response that goes through the spider
-        # middleware and into the spider.
-        # Should return None or raise an exception.
-        return None
-    def process_spider_output(response, result, spider):
-        # Called with the results returned from the Spider, after
-        # it has processed the response.
-        # Must return an iterable of Request, dict or Item objects.
-        for i in result:
-            yield i
-    def process_spider_exception(response, exception, spider):
-        # Called when a spider or process_spider_input() method
-        # (from other spider middleware) raises an exception.
-        # Should return either None or an iterable of Response, dict
-        # or Item objects.
-        pass
-    def process_start_requests(start_requests, spider):
-        # Called with the start requests of the spider, and works
-        # similarly to the process_spider_output() method, except
-        # that it doesn’t have a response associated.
-        # Must return only requests (not items).
-        for r in start_requests:
-            yield r
-    def spider_opened(self, spider):
-        spider.logger.info('Spider opened: %s' % spider.name)
--- a/sitios_yucatan/diarioYucatan2/diarioYucatan2/pipelines.py
+++ b/sitios_yucatan/diarioYucatan2/diarioYucatan2/pipelines.py
-# -*- coding: utf-8 -*-
-# Define your item pipelines here
-#
-# Don't forget to add your pipeline to the ITEM_PIPELINES setting
-# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
-class Diarioyucatan2Pipeline(object):
-    def process_item(self, item, spider):
-        return item
--- a/sitios_yucatan/diarioYucatan2/diarioYucatan2/settings.py
+++ b/sitios_yucatan/diarioYucatan2/diarioYucatan2/settings.py
-# -*- coding: utf-8 -*-
-# Scrapy settings for diarioYucatan2 project
-#
-# For simplicity, this file contains only settings considered important or
-# commonly used. You can find more settings consulting the documentation:
-#
-#     http://doc.scrapy.org/en/latest/topics/settings.html
-#     http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
-#     http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
-BOT_NAME = 'diarioYucatan2'
-SPIDER_MODULES = ['diarioYucatan2.spiders']
-NEWSPIDER_MODULE = 'diarioYucatan2.spiders'
-# Crawl responsibly by identifying yourself (and your website) on the user-agent
-#USER_AGENT = 'diarioYucatan2 (+http://www.yourdomain.com)'
-# Obey robots.txt rules
-ROBOTSTXT_OBEY = True
-# Configure maximum concurrent requests performed by Scrapy (default: 16)
-#CONCURRENT_REQUESTS = 32
-# Configure a delay for requests for the same website (default: 0)
-# See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay
-# See also autothrottle settings and docs
-DOWNLOAD_DELAY = 2
-# The download delay setting will honor only one of:
-#CONCURRENT_REQUESTS_PER_DOMAIN = 16
-#CONCURRENT_REQUESTS_PER_IP = 16
-# Disable cookies (enabled by default)
-COOKIES_ENABLED = False
-# Disable Telnet Console (enabled by default)
-#TELNETCONSOLE_ENABLED = False
-# Override the default request headers:
-#DEFAULT_REQUEST_HEADERS = {
-#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
-#   'Accept-Language': 'en',
-#}
-# Enable or disable spider middlewares
-# See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
-#SPIDER_MIDDLEWARES = {
-#    'diarioYucatan2.middlewares.Diarioyucatan2SpiderMiddleware': 543,
-#}
-# Enable or disable downloader middlewares
-# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
-#DOWNLOADER_MIDDLEWARES = {
-#    'diarioYucatan2.middlewares.MyCustomDownloaderMiddleware': 543,
-#}
-# Enable or disable extensions
-# See http://scrapy.readthedocs.org/en/latest/topics/extensions.html
-#EXTENSIONS = {
-#    'scrapy.extensions.telnet.TelnetConsole': None,
-#}
-# Configure item pipelines
-# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
-#ITEM_PIPELINES = {
-#    'diarioYucatan2.pipelines.Diarioyucatan2Pipeline': 300,
-#}
-# Enable and configure the AutoThrottle extension (disabled by default)
-# See http://doc.scrapy.org/en/latest/topics/autothrottle.html
-#AUTOTHROTTLE_ENABLED = True
-# The initial download delay
-#AUTOTHROTTLE_START_DELAY = 5
-# The maximum download delay to be set in case of high latencies
-#AUTOTHROTTLE_MAX_DELAY = 60
-# The average number of requests Scrapy should be sending in parallel to
-# each remote server
-#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
-# Enable showing throttling stats for every response received:
-#AUTOTHROTTLE_DEBUG = False
-# Enable and configure HTTP caching (disabled by default)
-# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
-#HTTPCACHE_ENABLED = True
-#HTTPCACHE_EXPIRATION_SECS = 0
-#HTTPCACHE_DIR = 'httpcache'
-#HTTPCACHE_IGNORE_HTTP_CODES = []
-#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'
--- a/sitios_yucatan/diarioYucatan2/diarioYucatan2/settings.pyc
+++ b/sitios_yucatan/diarioYucatan2/diarioYucatan2/settings.pyc
--- a/sitios_yucatan/diarioYucatan2/diarioYucatan2/spiders/__init__.pyc
+++ b/sitios_yucatan/diarioYucatan2/diarioYucatan2/spiders/__init__.pyc
--- a/sitios_yucatan/diarioYucatan2/diarioYucatan2/spiders/noticias.py
+++ b/sitios_yucatan/diarioYucatan2/diarioYucatan2/spiders/noticias.py
-import scrapy
-## scrapy crawl noticias -t json --nolog -o noticias.json -a year=2016 -a month=12 -a day=24
-import re
-from datetime import datetime, date, timedelta
-from scrapy.spidermiddlewares.httperror import HttpError
-TAG_RE = re.compile(r'<[^>]+>')
-def remove_tags(text):
-	return TAG_RE.sub('', text)
-class NoticiasItem(scrapy.Item):
-	title = scrapy.Field()
-	text = scrapy.Field()
-	date = scrapy.Field()
-	location = scrapy.Field()
-	author = scrapy.Field()
-	topic = scrapy.Field()
-	url = scrapy.Field()
-class QuotesSpider(scrapy.Spider):
-	name = "noticias"
-	def start_requests(self):
-		section_list = ['merida', 'yucatan', 'mexico', 'internacional', 'deportes',
-										'espectaculos', 'imagen', 'economia', 'tecnologia', 'salud']
-		year = getattr(self, 'year', None)
-		month = getattr(self, 'month', None)
-		day = getattr(self, 'day', None)
-		self.baseURL='http://yucatan.com.mx/seccion/'
-		self.date = date(int(year), int(month), int(day))
-		self.parsing_month = { 'enero': 1, 'febrero': 2, 'marzo': 3, 'abril': 4, 'mayo': 5, 'junio': 6, 'julio': 7,
-													 'agosto': 8, 'septiembre': 9, 'octubre': 10, 'noviembre': 11, 'diciembre': 12 }
-		self.stop = False
-		urls = [
-			self.baseURL,
-								]
-		for s in section_list:
-			yield scrapy.Request(url=self.baseURL+s, callback=self.parse)
-	def parse(self, response):
-		if ( len(response.xpath('//a[@class="show-more-link"]/@href').extract()) > 0 ):
-			for link in response.xpath('//a[@class="show-more-link"]/@href').extract():
-				yield scrapy.Request(url=link, callback=self.parse_pagination)
-		elif ( len(response.xpath('//a[@class="show-more-link"]/@href').extract()) == 0 ):
-			yield scrapy.Request(url=response.url, callback=self.parse_pagination, dont_filter=True)
-	def errback_http(self, failure):	
-		if failure.check(HttpError):
-			response = failure.value.response
-			self.logger.error('HttpError on %s', response.url)
-			self.stop = True
-	def parse_pagination(self, response):
-		pagination = response.xpath('//*[@class="pagination"]/a/@href').extract()
-		if ( len(pagination) > 0 ):
-			pagination = pagination[-1]
-			pages = int(pagination[pagination.rfind('/')+1:])
-			p = 1
-			while p <= pages:	
-				if ( self.stop ):
-					p = pages+1
-				else:
-					if ( p == 1 ):
-						yield scrapy.Request(url=response.url, callback=self.parse_link, dont_filter=True)
-					elif ( p > 1 ):
-						yield scrapy.Request(url=response.url+'/page/'+str(p+1), callback=self.parse_link)
-				p += 1
-		else:
-			yield scrapy.Request(url=response.url, callback=self.parse_link, dont_filter=True)
-	def parse_link(self, response):
-		for entry in response.xpath('//*[@class="bp-entry"]'):
-			entry_date = entry.xpath('./*[@class="bp-head"]/div/span/text()').extract_first()
-			entry_date = entry_date[entry_date.rfind(',')+2:][:entry_date[entry_date.rfind(',')+2:].rfind('-')-2]
-			news_date = date(int(entry_date[-4:]), self.parsing_month[entry_date[:-8][entry_date[:-8].rfind(' ')+1:]], int(entry_date[:entry_date.find(' ')]))
-			link = entry.xpath('./*[@class="bp-head"]/h2/a/@href').extract_first()
-			if news_date >= self.date and link is not None:
-				yield scrapy.Request(url=link, callback=self.parse_item)
-			elif news_date < self.date:
-				self.stop = True
-	def parse_item(self, response):
-		text = ''
-		item = NoticiasItem()
-		item['title'] = response.css('h1.entry-title::text').extract_first()
-		item['date'] = response.css('div.base-box').css('span.entry-date::attr(datetime)').extract_first()
-		for paragraph in response.css('div.entry-content').css('p').extract():
-			text += remove_tags(paragraph) + '\n'		
-		item['text'] = text
-		item['topic'] = [response.xpath('//*[@class="breadcrumbs-plus"]/span/a/span/text()').extract()[1]]
-		item['url'] = response.url
-		# print item['title']
-		yield item
--- a/sitios_yucatan/diarioYucatan2/diarioYucatan2/spiders/noticias.pyc
+++ b/sitios_yucatan/diarioYucatan2/diarioYucatan2/spiders/noticias.pyc
--- a/sitios_yucatan/diarioYucatan2/scrapy.cfg
+++ b/sitios_yucatan/diarioYucatan2/scrapy.cfg
-# Automatically created by: scrapy startproject
-#
-# For more information about the [deploy] section see:
-# https://scrapyd.readthedocs.org/en/latest/deploy.html
-[settings]
-default = diarioYucatan2.settings
-[deploy]
-#url = http://localhost:6800/
-project = diarioYucatan2
--- a/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/__init__.py
+++ b/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/__init__.py
--- a/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/spiders/__init__.py
+++ b/sitios_yucatan/yucatanAlMinuto/yucatanAlMinuto/spiders/__init__.py
-# This package will contain the spiders of your Scrapy project
-#
-# Please refer to the documentation for information on how to create and manage
-# your spiders.
--- a/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/__init__.py
+++ b/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/__init__.py
--- a/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/spiders/__init__.py
+++ b/sitios_yucatan/yucatanEnCorto/yucatanEnCorto/spiders/__init__.py
-# This package will contain the spiders of your Scrapy project
-#
-# Please refer to the documentation for information on how to create and manage
-# your spiders.