Crawlers para medios de información en linea nacionales basados en [Scrapy](http://scrapy.org/) Se incluyen los siguientes medios nacionales: * [Al Chile](http://alchile.com.mx) Acceso por día: ```bash http://alchile.com.mx/2017/9/13/ ``` Uso: ```bash cd alChile scrapy crawl noticias --nolog -s filename=2017-03-22.json -a year=2017 -a month=3 -a day=22 ``` No se encontró notas antes del 2014.06.01. * [Campeche Hoy](http://campechehoy.mx) Acceso por día: ```bash http://campechehoy.mx/2018/01/22/ ``` Uso: ```bash cd campecheHoy scrapy crawl noticias --nolog -s filename=2018-01-22.json -a year=2018 -a month=1 -a day=22 ``` No se encontró notas antes del 2017.06.01. * [Desde el Balcón](http://www.desdeelbalcon.com) Acceso por día: ```bash http://www.desdeelbalcon.com/2017/9/13/ ``` Uso: ```bash cd desdeElBalcon scrapy crawl noticias --nolog -s filename=2017-03-30.json -a year=2017 -a month=3 -a day=30 ``` No se encontró notas antes del 2014.01.11. * [Diario del Yaqui](http://diariodelyaqui.mx) Acceso por día: ```bash http://diariodelyaqui.mx/2017/9/13/ ``` Uso: ```bash cd diarioYaqui scrapy crawl noticias --nolog -s filename=2016-12-24.json -a year=2016 -a month=12 -a day=24 ``` No se encontró notas antes del 2016.12.30. * [Diario de Yucatán](http://yucatan.com.mx) Uso: ```bash cd diarioYucatan scrapy crawl noticias --nolog -s filename=noticias.json ``` No se encontró notas antes del 2012.04.02. * [EDOMEX al Día](http://www.edomexaldia.com.mx) Acceso por día: ```bash http://www.edomexaldia.com.mx/2018/01/30/ ``` Uso: ```bash cd edoMexDia scrapy crawl noticias --nolog -s filename=2018-01-30.json -a year=2018 -a month=1 -a day=30 ``` No se encontró notas antes del 2011.09.21. * [Expreso Chiapas](http://expresochiapas.com/noticias) Acceso por día: ```bash http://expresochiapas.com/noticias/2018/1/30/ ``` Uso: ```bash cd expresoChiapas scrapy crawl noticias --nolog -s filename=2018-01-30.json -a year=2018 -a month=1 -a day=30 ``` No se encontró notas antes del 2015.09.26. * [El Grillo Porteño](http://grilloporteno.com) Acceso por día: ```bash http://grilloporteno.com/2017/9/13/ ``` Uso: ```bash cd grilloPorteno scrapy crawl noticias --nolog -s filename=2017-03-26.json -a year=2017 -a month=3 -a day=26 ``` No se encontró notas antes del 2013.11.04. * [El Heraldo Aguascalientes](http://www.heraldo.mx) Acceso por día: ```bash http://www.heraldo.mx/2018/01/22/ ``` Uso: ```bash cd heraldoAgs scrapy crawl noticias --nolog -s filename=2018-01-22.json -a year=2018 -a month=1 -a day=22 ``` No se encontró notas antes del 2014.01.23. * [El Heraldo León](http://www.heraldoleon.mx) Acceso por día: ```bash http://www.heraldoleon.mx/2018/01/29/ ``` Uso: ```bash cd heraldoLeon scrapy crawl noticias --nolog -s filename=2018-01-29.json -a year=2018 -a month=1 -a day=29 ``` No se encontró notas antes del 2016.07.06. * [La Jornada](http://www.jornada.unam.mx) Acceso por día: ```bash http://www.jornada.unam.mx/2017/09/13/ ``` Uso: ```bash cd laJornada scrapy crawl noticias --nolog -s filename=2017-04-23.json -a year=2017 -a month=4 -a day=23 ``` No se encontró notas antes del 1996.03.03. * [La Jornada Aguascalientes](http://www.lja.mx) Acceso por día: ```bash http://www.lja.mx/2017/9/13/ ``` Uso: ```bash cd laJornadaAgs scrapy crawl noticias --nolog -s filename=2017-03-26.json -a year=2017 -a month=3 -a day=26 ``` No se encontró notas antes del 2008.12.01. * [La Jornada Baja California](http://jornadabc.mx) Uso: ```bash cd laJornadaBC scrapy crawl noticias -t json --nolog -o noticias.json -a year=2017 -a month=4 -a day=26 ``` No se encontró notas antes del 2015.02.09. Esta versión descarga por fecha. Se recomienda usar principalmente para fechas recientes. * [La Jornada Guerrero (Nueva página)](http://www.lajornadaguerrero.com.mx) Acceso por día: ```bash http://www.lajornadaguerrero.com.mx/index.php?option=com_k2&view=itemlist&task=date&year=2017&month=9&day=17&Itemid=588 ``` Uso: ```bash cd laJornadaGro scrapy crawl noticias --nolog -s filename=2017-09-17.json -a year=2017 -a month=9 -a day=17 ``` No se encontró notas antes del 2017.08.15 para esta version del crawler. En general se tienen notas desde el 2007.01.22 * [La Jornada Maya](https://www.lajornadamaya.mx) Uso: ```bash cd laJornadaMaya scrapy crawl noticias -t json --nolog -o noticias.json -a year=2017 -a month=4 -a day=25 ``` No se encontró notas antes del 2015.03.12. * [La Jornada de Oriente](http://www.lajornadadeoriente.com.mx) Acceso por día: ```bash http://www.lajornadadeoriente.com.mx/2017/9/13/ ``` Uso: ```bash cd laJornadaOte scrapy crawl noticias --nolog -s filename=2017-03-26.json -a year=2017 -a month=3 -a day=26 ``` No se encontró notas antes del 2013.06.01. * [La Jornada San Luis](http://lajornadasanluis.com.mx) Acceso por día: ```bash http://lajornadasanluis.com.mx/2017/9/13/ ``` Uso: ```bash cd laJornadaSanLuis scrapy crawl noticias --nolog -s filename=2017-03-26.json -a year=2017 -a month=3 -a day=26 ``` No se encontró notas antes del 2014.10.08. * [La Jornada Veracruz](http://www.jornadaveracruz.com.mx) Acceso por día: ```bash http://www.jornadaveracruz.com.mx/Archive.aspx?date=13/09/2017 ``` Uso: ```bash cd laJornadaVer scrapy crawl noticias --nolog -s filename=2017-03-26.json -a year=2017 -a month=3 -a day=26 ``` No se encontró notas antes del 2009.05.11. * [La Jornada Zacatecas](http://ljz.mx) Acceso por día: ```bash http://ljz.mx/2017/9/13/ ``` Uso: ```bash cd laJornadaZac scrapy crawl noticias --nolog -s filename=2017-03-26.json -a year=2017 -a month=3 -a day=26 ``` No se encontró notas antes del 2013.06.10. * [La Razón](https://www.razon.com.mx) Acceso por día: ```bash https://www.razon.com.mx/2017/9/28/ ``` Uso: ```bash cd laRazon scrapy crawl noticias --nolog -s filename=2017-09-28.json -a year=2017 -a month=9 -a day=28 ``` No se encontró notas antes del 2015.01.01. * [La Verdad Yucatán](http://laverdadnoticias.com) Acceso por día: ```bash https://laverdadnoticias.com/2017/9/16/ ``` Uso: ```bash cd laVerdadYuc scrapy crawl noticias -t json --nolog -o noticias.json -a year=2017 -a month=3 -a day=24 ``` No se encontró notas antes del 2017.07.18. * [Lector MX](http://lectormx.com) Acceso por día: ```bash http://lectormx.com/2017/9/16/ ``` Uso: ```bash cd lectorMX scrapy crawl noticias --nolog -s filename=2017-03-30.json -a year=2017 -a month=3 -a day=30 ``` No se encontró notas antes del 2015.10.23. * [Mi Punto de Vista](http://www.mipuntodevista.com.mx) Acceso por día: ```bash http://www.mipuntodevista.com.mx/2017/9/16/ ``` Uso: ```bash cd miPuntoDeVista scrapy crawl noticias --nolog -s filename=2017-03-28.json -a year=2017 -a month=3 -a day=28 ``` No se encontró notas antes del 2008.10.04. * [El Noticiero en Línea](http://www.elnoticieroenlinea.com) Acceso por día: ```bash http://www.elnoticieroenlinea.com/2018/1/3/ ``` Uso: ```bash cd noticieroLinea scrapy crawl noticias --nolog -s filename=2018-01-03.json -a year=2018 -a month=1 -a day=3 ``` No se encontró notas antes del 2014.01.16. * [Notirivas](http://gruporivas.com.mx/notirivas) Acceso por día: ```bash http://gruporivas.com.mx/notirivas/2017/9/16/ ``` Uso: ```bash cd notirivas scrapy crawl noticias --nolog -s filename=2017-03-30.json -a year=2017 -a month=3 -a day=30 ``` No se encontró notas antes del 2016.11.22. * [Notisureste](http://www.notisureste.com) Acceso por día: ```bash http://www.notisureste.com/2017/9/13/ ``` Uso: ```bash cd notisureste scrapy crawl noticias --nolog -s filename=2017-03-22.json -a year=2017 -a month=3 -a day=22 ``` No se encontró notas antes del 2011.11.28. * [Periodico Correo](https://periodicocorreo.com.mx) Acceso por día: ```bash https://periodicocorreo.com.mx/2018/1/29/ ``` Uso: ```bash cd periodicoCorreo scrapy crawl noticias --nolog -s filename=2018-01-29.json -a year=2018 -a month=1 -a day=29 ``` No se encontró notas antes del 2013.09.08. * [Periodico Victoria](http://periodicovictoria.mx) Acceso por día: ```bash http://periodicovictoria.mx/2018/1/28/ ``` Uso: ```bash cd periodicoVictoria scrapy crawl noticias --nolog -s filename=2018-01-28.json -a year=2018 -a month=1 -a day=28 ``` No se encontró notas antes del 2013.10.09. * [Proceso](http://www.proceso.com.mx) Uso: ```bash cd proceso scrapy crawl noticias -t json --nolog -o noticias.json -a year=2017 -a month=3 ``` No se encontró notas antes de Nov. 1976. * [Punto Medio](https://www.puntomedio.mx) Acceso por día: ```bash https://www.puntomedio.mx/2017/9/13/ ``` Uso: ```bash cd puntoMedio scrapy crawl noticias --nolog -s filename=2017-03-27.json -a year=2017 -a month=3 -a day=27 ``` No se encontró notas antes del 2015.08.02. * [Sona 89.3](http://sona893.fm) Acceso por día: ```bash http://sona893.fm/2017/09/13/ ``` Uso: ```bash cd sona893 scrapy crawl noticias --nolog -s filename=2017-03-24.json -a year=2017 -a month=3 -a day=24 ``` No se encontró notas antes del 2012.04.09. * [Tribuna de los Cabos](http://www.tribunadeloscabos.com.mx/) Acceso por día: ```bash http://www.tribunadeloscabos.com.mx/2018/01/18/ ``` Uso: ```bash cd tribunaCabos scrapy crawl noticias --nolog -s filename=2018-01-18.json -a year=2018 -a month=1 -a day=18 ``` No se encontró notas antes del 2016.06.01. * [Uno Más Uno](http://www.unomasuno.com.mx) Acceso por día: ```bash http://www.unomasuno.com.mx/index.php/2017/09/22/ ``` Uso: ```bash cd unoMasUno scrapy crawl noticias --nolog -s filename=2017-09-22.json -a year=2017 -a month=09 -a day=22 ``` No se encontró notas antes del 2017.05.04. * [Yucatán a la Mano](http://www.yucatanalamano.com) Acceso por día: ```bash http://www.yucatanalamano.com/2017/9/13/ ``` Uso: ```bash cd yucatanALaMano scrapy crawl noticias --nolog -s filename=2017-03-25.json -a year=2017 -a month=3 -a day=25 ``` No se encontró notas antes del 2015.05.11. * [Yucatán al Minuto](http://www.yucatanalminuto.com) Uso: ```bash cd yucatanAlMinuto scrapy crawl noticias -t json --nolog -o noticias.json -a year=2017 -a month=03 -a day=22 ``` No se encontró notas antes del 2017.01.17. * [Yucatán en Corto](http://florcastillo.mx/noticias) Acceso por día: ```bash http://www.yucatanencorto.com/noticias/2017/12/15 ``` Uso: ```bash cd yucatanEnCorto scrapy crawl noticias --nolog -s filename=2017-03-29.json -a year=2017 -a month=3 -a day=29 ``` No se encontró notas antes del 2017.10.18 para esta version del crawler. En general se tienen notas desde el 2011.04.02. Adicionalmente se cuenta con los siguientes medios extranjeros: * [Diario Co Latino, El Salvador](http://www.diariocolatino.com) Acceso por día: ```bash http://www.diariocolatino.com/2018/2/23/ ``` Uso: ```bash cd descarga_por_dia/foraneos/diarioCoLatino scrapy crawl noticias --nolog -s filename=2018-02-23.json -a year=2018 -a month=2 -a day=23 ``` No se encontró notas antes del 2013.10.04. * [La Prensa Gráfica, El Salvador](https://www.laprensagrafica.com) Uso: ```bash cd descarga_hacia_atras/foraneos/prensaGrafica scrapy crawl noticias --nolog -s filename=noticias.json // obtiene todas las posibles scrapy crawl noticias --nolog -s filename=noticias.json -a year=2018 -a month=2 -a day=29 //obtiene hasta una fecha dada ``` No se encontró notas antes del 2017.09.05. * [The San Pedro Sun, Belice](https://www.sanpedrosun.com) Acceso por día: ```bash https://www.sanpedrosun.com/2018/2/23/ ``` Uso: ```bash cd descarga_por_dia/foraneos/sanPedroSun scrapy crawl noticias --nolog -s filename=2018-02-23.json -a year=2018 -a month=2 -a day=23 ``` No se encontró notas antes del 2008.07.21. * [Tiempo Digital, Honduras](http://tiempo.hn) Acceso por día: ```bash http://tiempo.hn/2018/2/23/ ``` Uso: ```bash cd descarga_por_dia/foraneos/tiempoDigitalHn scrapy crawl noticias --nolog -s filename=2018-02-23.json -a year=2018 -a month=2 -a day=23 ``` No se encontró notas antes del 2015.04.17. * [La Tribuna, Honduras](http://www.latribuna.hn) Uso: ```bash cd descarga_hacia_atras/foraneos/tribunaHn scrapy crawl noticias --nolog -s filename=noticias.json // obtiene todas las posibles scrapy crawl noticias --nolog -s filename=noticias.json -a year=2018 -a month=2 -a day=29 //obtiene hasta una fecha dada ``` No se encontró notas antes del ----.--.--.