Skip to content
Projects
Groups
Snippets
Help
Loading...
Help
Submit feedback
Contribute to GitLab
Sign in
Toggle navigation
crawlersNoticias
Project
Project
Details
Activity
Releases
Cycle Analytics
Repository
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
Issues
4
Issues
4
List
Board
Labels
Milestones
Merge Requests
0
Merge Requests
0
CI / CD
CI / CD
Pipelines
Jobs
Schedules
Charts
Wiki
Wiki
Members
Members
Collapse sidebar
Close sidebar
Activity
Graph
Charts
Create a new issue
Jobs
Commits
Issue Boards
Open sidebar
m3
crawlersNoticias
Commits
f3e69d86
Commit
f3e69d86
authored
Jan 31, 2018
by
Renán Sosa Guillen
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
README
parent
58a72255
Changes
1
Show whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
31 additions
and
42 deletions
+31
-42
README.md
README.md
+31
-42
No files found.
README.md
View file @
f3e69d86
...
@@ -11,7 +11,7 @@ Se incluyen los siguientes medios:
...
@@ -11,7 +11,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd alChile
cd alChile
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=3 -a day=22
scrapy crawl noticias -
-nolog -s filename=2017-03-22
.json -a year=2017 -a month=3 -a day=22
```
```
No se encontró notas antes del 2014.06.01.
No se encontró notas antes del 2014.06.01.
*
[
Campeche Hoy
](
http://campechehoy.mx
)
*
[
Campeche Hoy
](
http://campechehoy.mx
)
...
@@ -24,7 +24,7 @@ Se incluyen los siguientes medios:
...
@@ -24,7 +24,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd campecheHoy
cd campecheHoy
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2018 -a month=1 -a day=22
scrapy crawl noticias -
-nolog -s filename=2018-01-22
.json -a year=2018 -a month=1 -a day=22
```
```
No se encontró notas antes del 2017.06.01.
No se encontró notas antes del 2017.06.01.
*
[
Desde el Balcón
](
http://www.desdeelbalcon.com
)
*
[
Desde el Balcón
](
http://www.desdeelbalcon.com
)
...
@@ -37,7 +37,7 @@ Se incluyen los siguientes medios:
...
@@ -37,7 +37,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd desdeElBalcon
cd desdeElBalcon
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=3 -a day=30
scrapy crawl noticias -
-nolog -s filename=2017-03-30
.json -a year=2017 -a month=3 -a day=30
```
```
No se encontró notas antes del 2014.01.11.
No se encontró notas antes del 2014.01.11.
*
[
Diario del Yaqui
](
http://diariodelyaqui.mx
)
*
[
Diario del Yaqui
](
http://diariodelyaqui.mx
)
...
@@ -50,7 +50,7 @@ Se incluyen los siguientes medios:
...
@@ -50,7 +50,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd diarioYaqui
cd diarioYaqui
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2016 -a month=12 -a day=24
scrapy crawl noticias -
-nolog -s filename=2016-12-24
.json -a year=2016 -a month=12 -a day=24
```
```
No se encontró notas antes del 2016.12.30.
No se encontró notas antes del 2016.12.30.
*
[
Diario de Yucatán
](
http://yucatan.com.mx
)
*
[
Diario de Yucatán
](
http://yucatan.com.mx
)
...
@@ -60,7 +60,7 @@ Se incluyen los siguientes medios:
...
@@ -60,7 +60,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd diarioYucatan
cd diarioYucatan
scrapy crawl noticias -
t json --nolog -o noticias.json -a year=2016 -a month=12 -a day=24
scrapy crawl noticias -
-nolog -s filename=noticias.json
```
```
No se encontró notas antes del 2012.04.02.
No se encontró notas antes del 2012.04.02.
*
[
El Grillo Porteño
](
http://grilloporteno.com
)
*
[
El Grillo Porteño
](
http://grilloporteno.com
)
...
@@ -73,7 +73,7 @@ Se incluyen los siguientes medios:
...
@@ -73,7 +73,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd grilloPorteno
cd grilloPorteno
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=3 -a day=26
scrapy crawl noticias -
-nolog -s filename=2017-03-26
.json -a year=2017 -a month=3 -a day=26
```
```
No se encontró notas antes del 2013.11.04.
No se encontró notas antes del 2013.11.04.
*
[
El Heraldo Aguascalientes
](
http://www.heraldo.mx
)
*
[
El Heraldo Aguascalientes
](
http://www.heraldo.mx
)
...
@@ -86,7 +86,7 @@ Se incluyen los siguientes medios:
...
@@ -86,7 +86,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd heraldoAgs
cd heraldoAgs
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2018 -a month=1 -a day=22
scrapy crawl noticias -
-nolog -s filename=2018-01-22
.json -a year=2018 -a month=1 -a day=22
```
```
No se encontró notas antes del 2014.01.23.
No se encontró notas antes del 2014.01.23.
*
[
La Jornada
](
http://www.jornada.unam.mx
)
*
[
La Jornada
](
http://www.jornada.unam.mx
)
...
@@ -99,7 +99,7 @@ Se incluyen los siguientes medios:
...
@@ -99,7 +99,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd laJornada
cd laJornada
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=4 -a day=23
scrapy crawl noticias -
-nolog -s filename=2017-04-23
.json -a year=2017 -a month=4 -a day=23
```
```
No se encontró notas antes del 1996.03.03.
No se encontró notas antes del 1996.03.03.
*
[
La Jornada Aguascalientes
](
http://www.lja.mx
)
*
[
La Jornada Aguascalientes
](
http://www.lja.mx
)
...
@@ -112,7 +112,7 @@ Se incluyen los siguientes medios:
...
@@ -112,7 +112,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd laJornadaAgs
cd laJornadaAgs
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=3 -a day=26
scrapy crawl noticias -
-nolog -s filename=2017-03-26
.json -a year=2017 -a month=3 -a day=26
```
```
No se encontró notas antes del 2008.12.01.
No se encontró notas antes del 2008.12.01.
*
[
La Jornada Baja California
](
http://jornadabc.mx
)
*
[
La Jornada Baja California
](
http://jornadabc.mx
)
...
@@ -126,19 +126,6 @@ Se incluyen los siguientes medios:
...
@@ -126,19 +126,6 @@ Se incluyen los siguientes medios:
```
```
No se encontró notas antes del 2015.02.09.
No se encontró notas antes del 2015.02.09.
Esta versión descarga por fecha. Se recomienda usar principalmente para fechas recientes.
Esta versión descarga por fecha. Se recomienda usar principalmente para fechas recientes.
*
[
La Jornada Guerrero
](
http://www.lajornadaguerrero.com.mx
)
Acceso por día:
```bash
http://www.lajornadaguerrero.com.mx/2017/04/12/
```
Uso:
```bash
cd laJornadaGro
scrapy crawl noticias -t json --nolog -o noticias.json -a year=2017 -a month=3 -a day=26
```
No se encontró notas antes del 2007.01.22.
*
[
La Jornada Guerrero (Nueva página)
](
http://www.lajornadaguerrero.com.mx
)
*
[
La Jornada Guerrero (Nueva página)
](
http://www.lajornadaguerrero.com.mx
)
Acceso por día:
Acceso por día:
...
@@ -148,10 +135,11 @@ Se incluyen los siguientes medios:
...
@@ -148,10 +135,11 @@ Se incluyen los siguientes medios:
Uso:
Uso:
```bash
```bash
cd laJornadaGro
2
cd laJornadaGro
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=9 -a day=17
scrapy crawl noticias -
-nolog -s filename=2017-09-17
.json -a year=2017 -a month=9 -a day=17
```
```
No se encontró notas antes del 2017.08.15.
No se encontró notas antes del 2017.08.15 para esta version del crawler.
En general se tienen notas desde el 2007.01.22
*
[
La Jornada Maya
](
https://www.lajornadamaya.mx
)
*
[
La Jornada Maya
](
https://www.lajornadamaya.mx
)
...
@@ -172,7 +160,7 @@ Se incluyen los siguientes medios:
...
@@ -172,7 +160,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd laJornadaOte
cd laJornadaOte
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=3 -a day=26
scrapy crawl noticias -
-nolog -s filename=2017-03-26
.json -a year=2017 -a month=3 -a day=26
```
```
No se encontró notas antes del 2013.06.01.
No se encontró notas antes del 2013.06.01.
*
[
La Jornada San Luis
](
http://lajornadasanluis.com.mx
)
*
[
La Jornada San Luis
](
http://lajornadasanluis.com.mx
)
...
@@ -185,7 +173,7 @@ Se incluyen los siguientes medios:
...
@@ -185,7 +173,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd laJornadaSanLuis
cd laJornadaSanLuis
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=3 -a day=26
scrapy crawl noticias -
-nolog -s filename=2017-03-26
.json -a year=2017 -a month=3 -a day=26
```
```
No se encontró notas antes del 2014.10.08.
No se encontró notas antes del 2014.10.08.
*
[
La Jornada Veracruz
](
http://www.jornadaveracruz.com.mx
)
*
[
La Jornada Veracruz
](
http://www.jornadaveracruz.com.mx
)
...
@@ -198,7 +186,7 @@ Se incluyen los siguientes medios:
...
@@ -198,7 +186,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd laJornadaVer
cd laJornadaVer
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=3 -a day=26
scrapy crawl noticias -
-nolog -s filename=2017-03-26
.json -a year=2017 -a month=3 -a day=26
```
```
No se encontró notas antes del 2009.05.11.
No se encontró notas antes del 2009.05.11.
*
[
La Jornada Zacatecas
](
http://ljz.mx
)
*
[
La Jornada Zacatecas
](
http://ljz.mx
)
...
@@ -211,7 +199,7 @@ Se incluyen los siguientes medios:
...
@@ -211,7 +199,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd laJornadaZac
cd laJornadaZac
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=3 -a day=26
scrapy crawl noticias -
-nolog -s filename=2017-03-26
.json -a year=2017 -a month=3 -a day=26
```
```
No se encontró notas antes del 2013.06.10.
No se encontró notas antes del 2013.06.10.
*
[
La Razón
](
https://www.razon.com.mx
)
*
[
La Razón
](
https://www.razon.com.mx
)
...
@@ -224,7 +212,7 @@ Se incluyen los siguientes medios:
...
@@ -224,7 +212,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd laRazon
cd laRazon
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=9 -a day=28
scrapy crawl noticias -
-nolog -s filename=2017-09-28
.json -a year=2017 -a month=9 -a day=28
```
```
No se encontró notas antes del 2015.01.01.
No se encontró notas antes del 2015.01.01.
*
[
La Verdad Yucatán
](
http://laverdadnoticias.com
)
*
[
La Verdad Yucatán
](
http://laverdadnoticias.com
)
...
@@ -250,7 +238,7 @@ Se incluyen los siguientes medios:
...
@@ -250,7 +238,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd lectorMX
cd lectorMX
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=3 -a day=30
scrapy crawl noticias -
-nolog -s filename=2017-03-30
.json -a year=2017 -a month=3 -a day=30
```
```
No se encontró notas antes del 2015.10.23.
No se encontró notas antes del 2015.10.23.
*
[
Mi Punto de Vista
](
http://www.mipuntodevista.com.mx
)
*
[
Mi Punto de Vista
](
http://www.mipuntodevista.com.mx
)
...
@@ -263,7 +251,7 @@ Se incluyen los siguientes medios:
...
@@ -263,7 +251,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd miPuntoDeVista
cd miPuntoDeVista
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=3 -a day=28
scrapy crawl noticias -
-nolog -s filename=2017-03-28
.json -a year=2017 -a month=3 -a day=28
```
```
No se encontró notas antes del 2008.10.04.
No se encontró notas antes del 2008.10.04.
*
[
Notirivas
](
http://gruporivas.com.mx/notirivas
)
*
[
Notirivas
](
http://gruporivas.com.mx/notirivas
)
...
@@ -276,7 +264,7 @@ Se incluyen los siguientes medios:
...
@@ -276,7 +264,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd notirivas
cd notirivas
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=3 -a day=30
scrapy crawl noticias -
-nolog -s filename=2017-03-30
.json -a year=2017 -a month=3 -a day=30
```
```
No se encontró notas antes del 2016.11.22.
No se encontró notas antes del 2016.11.22.
*
[
Notisureste
](
http://www.notisureste.com
)
*
[
Notisureste
](
http://www.notisureste.com
)
...
@@ -289,7 +277,7 @@ Se incluyen los siguientes medios:
...
@@ -289,7 +277,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd notisureste
cd notisureste
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=3 -a day=22
scrapy crawl noticias -
-nolog -s filename=2017-03-22
.json -a year=2017 -a month=3 -a day=22
```
```
No se encontró notas antes del 2011.11.28.
No se encontró notas antes del 2011.11.28.
*
[
Proceso
](
http://www.proceso.com.mx
)
*
[
Proceso
](
http://www.proceso.com.mx
)
...
@@ -312,7 +300,7 @@ Se incluyen los siguientes medios:
...
@@ -312,7 +300,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd puntoMedio
cd puntoMedio
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=3 -a day=27
scrapy crawl noticias -
-nolog -s filename=2017-03-27
.json -a year=2017 -a month=3 -a day=27
```
```
No se encontró notas antes del 2015.08.02.
No se encontró notas antes del 2015.08.02.
*
[
Sona 89.3
](
http://sona893.fm
)
*
[
Sona 89.3
](
http://sona893.fm
)
...
@@ -325,7 +313,7 @@ Se incluyen los siguientes medios:
...
@@ -325,7 +313,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd sona893
cd sona893
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=3 -a day=24
scrapy crawl noticias -
-nolog -s filename=2017-03-24
.json -a year=2017 -a month=3 -a day=24
```
```
No se encontró notas antes del 2012.04.09.
No se encontró notas antes del 2012.04.09.
*
[
Tribuna de los Cabos
](
http://www.tribunadeloscabos.com.mx/
)
*
[
Tribuna de los Cabos
](
http://www.tribunadeloscabos.com.mx/
)
...
@@ -338,7 +326,7 @@ Se incluyen los siguientes medios:
...
@@ -338,7 +326,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd tribunaCabos
cd tribunaCabos
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2018 -a month=1 -a day=18
scrapy crawl noticias -
-nolog -s filename=2018-01-18
.json -a year=2018 -a month=1 -a day=18
```
```
No se encontró notas antes del 2016.06.01.
No se encontró notas antes del 2016.06.01.
*
[
Uno Más Uno
](
http://www.unomasuno.com.mx
)
*
[
Uno Más Uno
](
http://www.unomasuno.com.mx
)
...
@@ -351,7 +339,7 @@ Se incluyen los siguientes medios:
...
@@ -351,7 +339,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd unoMasUno
cd unoMasUno
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=09 -a day=22
scrapy crawl noticias -
-nolog -s filename=2017-09-22
.json -a year=2017 -a month=09 -a day=22
```
```
No se encontró notas antes del 2017.05.04.
No se encontró notas antes del 2017.05.04.
*
[
Yucatán a la Mano
](
http://www.yucatanalamano.com
)
*
[
Yucatán a la Mano
](
http://www.yucatanalamano.com
)
...
@@ -364,7 +352,7 @@ Se incluyen los siguientes medios:
...
@@ -364,7 +352,7 @@ Se incluyen los siguientes medios:
```bash
```bash
cd yucatanALaMano
cd yucatanALaMano
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=3 -a day=25
scrapy crawl noticias -
-nolog -s filename=2017-03-25
.json -a year=2017 -a month=3 -a day=25
```
```
No se encontró notas antes del 2015.05.11.
No se encontró notas antes del 2015.05.11.
*
[
Yucatán al Minuto
](
http://www.yucatanalminuto.com
)
*
[
Yucatán al Minuto
](
http://www.yucatanalminuto.com
)
...
@@ -381,12 +369,13 @@ Se incluyen los siguientes medios:
...
@@ -381,12 +369,13 @@ Se incluyen los siguientes medios:
Acceso por día:
Acceso por día:
```bash
```bash
http://
florcastillo.mx/noticias/2017/9/13
http://
www.yucatanencorto.com/noticias/2017/12/15
```
```
Uso:
Uso:
```bash
```bash
cd yucatanEnCorto
cd yucatanEnCorto
scrapy crawl noticias -
t json --nolog -o noticias
.json -a year=2017 -a month=3 -a day=29
scrapy crawl noticias -
-nolog -s filename=2017-03-29
.json -a year=2017 -a month=3 -a day=29
```
```
No se encontró notas antes del 2011.04.02.
No se encontró notas antes del 2017.10.18 para esta version del crawler.
En general se tienen notas desde el 2011.04.02.
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment