crawlers

9808c49c · Renán Sosa Guillen · 077afd63 · 9808c49c · 9808c49c · 9808c49c
Commit 9808c49c authored Sep 18, 2017 by Renán Sosa Guillen
7 changed files
--- a/descarga_hacia_atras/diarioYucatan/diarioYucatan/spiders/noticias.py
+++ b/descarga_hacia_atras/diarioYucatan/diarioYucatan/spiders/noticias.py
-import scrapy
-
+import scrapy, re
+from datetime import datetime, date, timedelta
+from scrapy.spidermiddlewares.httperror import HttpError

-## scrapy crawl noticias -t json --nolog -o noticias.json -a year=2016 -a month=12 -a day=24
+"""
+Esta version descarga ingresando una fecha.
+USO:

-import re
+scrapy crawl noticias -t json --nolog -o noticias.json -a year=2017 -a month=09 -a day=13

-from datetime import datetime, date, timedelta
-from scrapy.spidermiddlewares.httperror import HttpError
+No es recomendable para fechas de más de un mes de antiguas.
+"""

 TAG_RE = re.compile(r'<[^>]+>')
 def remove_tags(text):

--- a/descarga_hacia_atras/diarioYucatan2/diarioYucatan2/spiders/noticias.py
+++ b/descarga_hacia_atras/diarioYucatan2/diarioYucatan2/spiders/noticias.py
-import scrapy
-
+import scrapy, re
+# from datetime import datetime, date, timedelta
+# from scrapy.spidermiddlewares.httperror import HttpError

-## scrapy crawl noticias -t json --nolog -o noticias.json
+"""
+Esta version descarga todas las noticias contenidas en la pagina, sin necesidad
+de una fecha especifica.
+USO:

-import re
+scrapy crawl noticias -t json --nolog -o noticias.json

-# from datetime import datetime, date, timedelta
-# from scrapy.spidermiddlewares.httperror import HttpError
+Genera un archivo JSON con todas las noticias disponibles. El archivo 'parse_date_file.py'
+puede servir para clasificar dichas noticias en sus respectivas fechas.
+"""

 TAG_RE = re.compile(r'<[^>]+>')
 def remove_tags(text):

--- a/descarga_hacia_atras/laJornadaBC/laJornadaBC/spiders/noticias.py
+++ b/descarga_hacia_atras/laJornadaBC/laJornadaBC/spiders/noticias.py
-import scrapy
+import scrapy, re
 from datetime import datetime, date, timedelta

 """
+Esta version descarga ingresando una fecha.
 USO:

 scrapy crawl noticias -t json --nolog -o noticias.json -a year=2017 -a month=2 -a day=21
-"""

-import re
+No es recomendable para fechas de más de un mes de antiguas.
+"""

 TAG_RE = re.compile(r'<[^>]+>')
 def remove_tags(text):

--- a/descarga_hacia_atras/laJornadaBC2/laJornadaBC2/spiders/noticias.py
+++ b/descarga_hacia_atras/laJornadaBC2/laJornadaBC2/spiders/noticias.py
 import scrapy, re

 """
+Esta version descarga todas las noticias contenidas en la pagina, sin necesidad
+de una fecha especifica.
 USO:

 scrapy crawl noticias -t json --nolog -o noticias.json
+
+Genera un archivo JSON con todas las noticias disponibles. El archivo 'parse_date_file.py'
+puede servir para clasificar dichas noticias en sus respectivas fechas.
 """

 TAG_RE = re.compile(r'<[^>]+>')

--- a/descarga_hacia_atras/laJornadaMaya/laJornadaMaya/spiders/noticias.py
+++ b/descarga_hacia_atras/laJornadaMaya/laJornadaMaya/spiders/noticias.py
-import scrapy
-import json
+import scrapy, json, re
 from datetime import datetime, date, timedelta

-#scrapy crawl noticias -t json --nolog -o noticias.json -a year=2017 -a month=3 -a day=22
+"""
+Esta version descarga ingresando una fecha.
+USO:

-import re
+scrapy crawl noticias -t json --nolog -o noticias.json -a year=2017 -a month=3 -a day=22
+
+No es recomendable para fechas de más de un mes de antiguas.
+"""


 TAG_RE = re.compile(r'<[^>]+>')

--- a/descarga_hacia_atras/laJornadaMaya/laJornadaMaya/spiders/noticias.pyc
+++ b/descarga_hacia_atras/laJornadaMaya/laJornadaMaya/spiders/noticias.pyc
--- a/descarga_hacia_atras/laJornadaMaya2/laJornadaMaya2/spiders/noticias.py
+++ b/descarga_hacia_atras/laJornadaMaya2/laJornadaMaya2/spiders/noticias.py
-import scrapy
-import json
+import scrapy, json, re

-#scrapy crawl noticias -t json -o noticias.json
+"""
+Esta version descarga todas las noticias contenidas en la pagina, sin necesidad
+de una fecha especifica.
+USO:

-import re
+scrapy crawl noticias -t json --nolog -o noticias.json
+
+Genera un archivo JSON con todas las noticias disponibles. El archivo 'parse_date_file.py'
+puede servir para clasificar dichas noticias en sus respectivas fechas.
+"""


 TAG_RE = re.compile(r'<[^>]+>')