Commit 6f707d66 authored by Renán Sosa Guillen's avatar Renán Sosa Guillen

README

parent 06b943ce
Crawlers para medios de información en linea nacionales basados en [Scrapy](http://scrapy.org/)
Se incluyen los siguientes medios:
Se incluyen los siguientes medios nacionales:
* [Al Chile](http://alchile.com.mx)
Acceso por día:
......@@ -89,45 +89,6 @@ Se incluyen los siguientes medios:
scrapy crawl noticias --nolog -s filename=2018-01-30.json -a year=2018 -a month=1 -a day=30
```
No se encontró notas antes del 2015.09.26.
* [Diario Co Latino, El Salvador](http://www.diariocolatino.com)
Acceso por día:
```bash
http://www.diariocolatino.com/2018/2/23/
```
Uso:
```bash
cd diarioCoLatino
scrapy crawl noticias --nolog -s filename=2018-02-23.json -a year=2018 -a month=2 -a day=23
```
No se encontró notas antes del 2013.10.04.
* [The San Pedro Sun, Belice](https://www.sanpedrosun.com)
Acceso por día:
```bash
https://www.sanpedrosun.com/2018/2/23/
```
Uso:
```bash
cd sanPedroSun
scrapy crawl noticias --nolog -s filename=2018-02-23.json -a year=2018 -a month=2 -a day=23
```
No se encontró notas antes del 2008.07.21.
* [Tiempo Digital, Honduras](http://tiempo.hn)
Acceso por día:
```bash
http://tiempo.hn/2018/2/23/
```
Uso:
```bash
cd tiempoDigitalHn
scrapy crawl noticias --nolog -s filename=2018-02-23.json -a year=2018 -a month=2 -a day=23
```
No se encontró notas antes del 2015.04.17.
* [El Grillo Porteño](http://grilloporteno.com)
Acceso por día:
......@@ -496,3 +457,65 @@ Se incluyen los siguientes medios:
```
No se encontró notas antes del 2017.10.18 para esta version del crawler.
En general se tienen notas desde el 2011.04.02.
Adicionalmente se cuenta con los siguientes medios extranjeros:
* [Diario Co Latino, El Salvador](http://www.diariocolatino.com)
Acceso por día:
```bash
http://www.diariocolatino.com/2018/2/23/
```
Uso:
```bash
cd descarga_por_dia/foraneos/diarioCoLatino
scrapy crawl noticias --nolog -s filename=2018-02-23.json -a year=2018 -a month=2 -a day=23
```
No se encontró notas antes del 2013.10.04.
* [La Prensa Gráfica, El Salvador](https://www.laprensagrafica.com)
Uso:
```bash
cd descarga_hacia_atras/foraneos/prensaGrafica
scrapy crawl noticias --nolog -s filename=noticias.json // obtiene todas las posibles
scrapy crawl noticias --nolog -s filename=noticias.json -a year=2018 -a month=2 -a day=29 //obtiene hasta una fecha dada
```
No se encontró notas antes del 2017.09.05.
* [The San Pedro Sun, Belice](https://www.sanpedrosun.com)
Acceso por día:
```bash
https://www.sanpedrosun.com/2018/2/23/
```
Uso:
```bash
cd descarga_por_dia/foraneos/sanPedroSun
scrapy crawl noticias --nolog -s filename=2018-02-23.json -a year=2018 -a month=2 -a day=23
```
No se encontró notas antes del 2008.07.21.
* [Tiempo Digital, Honduras](http://tiempo.hn)
Acceso por día:
```bash
http://tiempo.hn/2018/2/23/
```
Uso:
```bash
cd descarga_por_dia/foraneos/tiempoDigitalHn
scrapy crawl noticias --nolog -s filename=2018-02-23.json -a year=2018 -a month=2 -a day=23
```
No se encontró notas antes del 2015.04.17.
* [La Tribuna, Honduras](http://www.latribuna.hn)
Uso:
```bash
cd descarga_hacia_atras/foraneos/tribunaHn
scrapy crawl noticias --nolog -s filename=noticias.json // obtiene todas las posibles
scrapy crawl noticias --nolog -s filename=noticias.json -a year=2018 -a month=2 -a day=29 //obtiene hasta una fecha dada
```
No se encontró notas antes del ----.--.--.
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment