Commit e01447f3 authored by Renán Sosa Guillen's avatar Renán Sosa Guillen

merge foraneos

parents ade064f3 26ccc574
Crawlers para medios de información en linea nacionales basados en [Scrapy](http://scrapy.org/)
Se incluyen los siguientes medios:
Se incluyen los siguientes medios nacionales:
* [Al Chile](http://alchile.com.mx)
Acceso por día:
......@@ -89,45 +89,6 @@ Se incluyen los siguientes medios:
scrapy crawl noticias --nolog -s filename=2018-01-30.json -a year=2018 -a month=1 -a day=30
```
No se encontró notas antes del 2015.09.26.
* [Diario Co Latino, El Salvador](http://www.diariocolatino.com)
Acceso por día:
```bash
http://www.diariocolatino.com/2018/2/23/
```
Uso:
```bash
cd diarioCoLatino
scrapy crawl noticias --nolog -s filename=2018-02-23.json -a year=2018 -a month=2 -a day=23
```
No se encontró notas antes del 2013.10.04.
* [The San Pedro Sun, Belice](https://www.sanpedrosun.com)
Acceso por día:
```bash
https://www.sanpedrosun.com/2018/2/23/
```
Uso:
```bash
cd sanPedroSun
scrapy crawl noticias --nolog -s filename=2018-02-23.json -a year=2018 -a month=2 -a day=23
```
No se encontró notas antes del 2008.07.21.
* [Tiempo Digital, Honduras](http://tiempo.hn)
Acceso por día:
```bash
http://tiempo.hn/2018/2/23/
```
Uso:
```bash
cd tiempoDigitalHn
scrapy crawl noticias --nolog -s filename=2018-02-23.json -a year=2018 -a month=2 -a day=23
```
No se encontró notas antes del 2015.04.17.
* [El Grillo Porteño](http://grilloporteno.com)
Acceso por día:
......@@ -496,3 +457,65 @@ Se incluyen los siguientes medios:
```
No se encontró notas antes del 2017.10.18 para esta version del crawler.
En general se tienen notas desde el 2011.04.02.
Adicionalmente se cuenta con los siguientes medios extranjeros:
* [Diario Co Latino, El Salvador](http://www.diariocolatino.com)
Acceso por día:
```bash
http://www.diariocolatino.com/2018/2/23/
```
Uso:
```bash
cd descarga_por_dia/foraneos/diarioCoLatino
scrapy crawl noticias --nolog -s filename=2018-02-23.json -a year=2018 -a month=2 -a day=23
```
No se encontró notas antes del 2013.10.04.
* [La Prensa Gráfica, El Salvador](https://www.laprensagrafica.com)
Uso:
```bash
cd descarga_hacia_atras/foraneos/prensaGrafica
scrapy crawl noticias --nolog -s filename=noticias.json // obtiene todas las posibles
scrapy crawl noticias --nolog -s filename=noticias.json -a year=2018 -a month=2 -a day=29 //obtiene hasta una fecha dada
```
No se encontró notas antes del 2017.09.05.
* [The San Pedro Sun, Belice](https://www.sanpedrosun.com)
Acceso por día:
```bash
https://www.sanpedrosun.com/2018/2/23/
```
Uso:
```bash
cd descarga_por_dia/foraneos/sanPedroSun
scrapy crawl noticias --nolog -s filename=2018-02-23.json -a year=2018 -a month=2 -a day=23
```
No se encontró notas antes del 2008.07.21.
* [Tiempo Digital, Honduras](http://tiempo.hn)
Acceso por día:
```bash
http://tiempo.hn/2018/2/23/
```
Uso:
```bash
cd descarga_por_dia/foraneos/tiempoDigitalHn
scrapy crawl noticias --nolog -s filename=2018-02-23.json -a year=2018 -a month=2 -a day=23
```
No se encontró notas antes del 2015.04.17.
* [La Tribuna, Honduras](http://www.latribuna.hn)
Uso:
```bash
cd descarga_hacia_atras/foraneos/tribunaHn
scrapy crawl noticias --nolog -s filename=noticias.json // obtiene todas las posibles
scrapy crawl noticias --nolog -s filename=noticias.json -a year=2018 -a month=2 -a day=29 //obtiene hasta una fecha dada
```
No se encontró notas antes del ----.--.--.
......@@ -5,9 +5,6 @@
{"nombre": "Diario de Yucatan", "crawler": "descarga_hacia_atras/diarioYucatan", "desde": "02-04-2012", "url": "http://yucatan.com.mx"},
{"nombre": "EDOMEX al Dia", "crawler": "descarga_por_dia/edoMexDia", "desde": "21-09-2011", "url": "http://www.edomexaldia.com.mx"},
{"nombre": "Expreso Chiapas", "crawler": "descarga_por_dia/expresoChiapas", "desde": "26-09-2015", "url": "http://expresochiapas.com/noticias"},
{"nombre": "Diario Co Latino", "crawler": "descarga_por_dia/foraneos/diarioCoLatino", "desde": "04-10-2013", "url": "https://www.diariocolatino.com"},
{"nombre": "The San Pedro Sun", "crawler": "descarga_por_dia/foraneos/sanPedroSun", "desde": "21-07-2008", "url": "https://www.sanpedrosun.com"},
{"nombre": "Tiempo Digital Hn", "crawler": "descarga_por_dia/foraneos/tiempoDigitalHn", "desde": "17-04-2015", "url": "https://tiempo.hn"},
{"nombre": "El Grillo", "crawler": "descarga_por_dia/grilloPorteno", "desde": "04-11-2013", "url": "http://grilloporteno.com"},
{"nombre": "El Heraldo Aguascalientes", "crawler": "descarga_por_dia/heraldoAgs", "desde": "23-01-2014", "url": "http://www.heraldo.mx"},
{"nombre": "El Heraldo Leon", "crawler": "descarga_por_dia/heraldoLeon", "desde": "06-07-2016", "url": "http://www.heraldoleon.mx"},
......@@ -30,7 +27,6 @@
{"nombre": "Notisureste", "crawler": "descarga_por_dia/notisureste", "desde": "28-11-2011", "url": "http://www.notisureste.com"},
{"nombre": "Periodico Correo", "crawler": "descarga_por_dia/periodicoCorreo", "desde": "08-09-2013", "url": "https://periodicocorreo.com.mx"},
{"nombre": "Periodico Victoria", "crawler": "descarga_por_dia/periodicoVictoria", "desde": "09-10-2013", "url": "http://periodicovictoria.mx"},
{"nombre": "La Prensa Grafica", "crawler": "descarga_hacia_atras/foraneos/prensaGrafica", "url": "https://www.laprensagrafica.com"},
{"nombre": "Proceso", "crawler": "descarga_por_mes/proceso", "desde": "11-1976", "url": "http://www.proceso.com.mx"},
{"nombre": "Punto Medio", "crawler": "descarga_por_dia/puntoMedio", "desde": "02-08-2015", "url": "https://www.puntomedio.mx"},
{"nombre": "Sona 89.3", "crawler": "descarga_por_dia/sona893", "desde": "09-04-2012", "url": "http://sona893.fm"},
......@@ -38,4 +34,9 @@
{"nombre": "Uno Mas Uno", "crawler": "descarga_por_dia/unoMasUno", "desde": "04-05-2017", "url": "http://www.unomasuno.com.mx"},
{"nombre": "Yucatan a la Mano", "crawler": "descarga_por_dia/yucatanALaMano", "desde": "11-05-2015", "url": "http://www.yucatanalamano.com"},
{"nombre": "Yucatan al Minuto", "crawler": "descarga_hacia_atras/yucatanAlMinuto", "desde": "17-01-2017", "url": "http://www.yucatanalminuto.com"},
{"nombre": "Yucatan en Corto", "crawler": "descarga_por_dia/yucatanEnCorto", "desde": "02-04-2011", "url": "http://www.yucatanencorto.com/noticias"}]
\ No newline at end of file
{"nombre": "Yucatan en Corto", "crawler": "descarga_por_dia/yucatanEnCorto", "desde": "02-04-2011", "url": "http://www.yucatanencorto.com/noticias"},
{"nombre": "Diario Co Latino", "crawler": "descarga_por_dia/foraneos/diarioCoLatino", "desde": "04-10-2013", "url": "https://www.diariocolatino.com"},
{"nombre": "La Prensa Grafica", "crawler": "descarga_hacia_atras/foraneos/prensaGrafica", "desde": "05-09-2017", "url": "https://www.laprensagrafica.com"},
{"nombre": "The San Pedro Sun", "crawler": "descarga_por_dia/foraneos/sanPedroSun", "desde": "21-07-2008", "url": "https://www.sanpedrosun.com"},
{"nombre": "Tiempo Digital Hn", "crawler": "descarga_por_dia/foraneos/tiempoDigitalHn", "desde": "17-04-2015", "url": "https://tiempo.hn"},
{"nombre": "La Tribuna Hn", "crawler": "descarga_hacia_atras/foraneos/tribunaHn", "url": "http://www.latribuna.hn"}]
\ No newline at end of file
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment