<![CDATA[Latest posts for the topic "(Các soft Get All tài nguyên của 1 Site) Trục trặc ở site này !?"]]> /hvaonline/posts/list/23.html JForum - http://www.jforum.net (Các soft Get All tài nguyên của 1 Site) Trục trặc ở site này !? http://www.deskcity.com/ Mình đã dùng IDM Grabber - Teleport (Pro+Ultimate) - Offline Explorer - WebRipper - Httrack ... để thử lấy hết hình trong Site trên. Đã thử thiết lập nhiều kiểu nhưng vẫn không thành công. Với IDM Grabber thì mình lấy được khoảng hơn 250 hình thôi (mỗi hình phải >100 KB, web này toàn hình bự thôi). Thấy rằng vẫn còn thiếu khá nhiều hình chưa lấy được. Mấy tool kia thì không lấy được hay bằng IDM Grabber, cũng trăm mấy thôi. Có thể có site chống Get All kiểu này. Nhưng ở site trên, mình cũng lấy được hơn 250 ảnh rồi, và những ảnh chưa lấy được cũng nằm trong những chỗ Public như những ảnh kia thôi, vậy mà không lấy được !? Nhờ các bạn chỉ cách thiết lập của Tool nào mà down được hoàn toàn hình ảnh .jpg >100 KB ở trang trên.]]> /hvaonline/posts/list/30108.html#185633 /hvaonline/posts/list/30108.html#185633 GMT (Các soft Get All tài nguyên của 1 Site) Trục trặc ở site này !? /hvaonline/posts/list/30108.html#185799 /hvaonline/posts/list/30108.html#185799 GMT (Các soft Get All tài nguyên của 1 Site) Trục trặc ở site này !? /hvaonline/posts/list/30108.html#185801 /hvaonline/posts/list/30108.html#185801 GMT (Các soft Get All tài nguyên của 1 Site) Trục trặc ở site này !? _http://pastebin.com/f250736cf ]]> /hvaonline/posts/list/30108.html#185810 /hvaonline/posts/list/30108.html#185810 GMT (Các soft Get All tài nguyên của 1 Site) Trục trặc ở site này !? /hvaonline/posts/list/30108.html#185817 /hvaonline/posts/list/30108.html#185817 GMT (Các soft Get All tài nguyên của 1 Site) Trục trặc ở site này !?

kamikazeq wrote:
... Nhờ các bạn chỉ cách thiết lập của Tool nào mà down được hoàn toàn hình ảnh .jpg >100 KB ở trang trên. 
Trong thâm tâm, mình vẫn đinh ninh rằng wget có tùy chọn giới hạn size, thế quái nào tìm trong man page lại không thấy nhỉ? Lẽ nào mình nhớ nhầm? Nếu đúng mình nhầm thật và không có tools nào khác có chức năng đó thì đành "chơi" cách này vậy: Code:
$ wget -A.jpg -r -e robots=off -nd http://www.deskcity.com/
$ for f in *; do if [ `wc -c "$f" | cut -d" " -f1` -lt 102400 ]; then rm -fr "$f"; fi; done
]]>
/hvaonline/posts/list/30108.html#185821 /hvaonline/posts/list/30108.html#185821 GMT
(Các soft Get All tài nguyên của 1 Site) Trục trặc ở site này !? /hvaonline/posts/list/30108.html#185822 /hvaonline/posts/list/30108.html#185822 GMT (Các soft Get All tài nguyên của 1 Site) Trục trặc ở site này !?

quanta wrote:

kamikazeq wrote:
... Nhờ các bạn chỉ cách thiết lập của Tool nào mà down được hoàn toàn hình ảnh .jpg >100 KB ở trang trên. 
Trong thâm tâm, mình vẫn đinh ninh rằng wget có tùy chọn giới hạn size, thế quái nào tìm trong man page lại không thấy nhỉ? Lẽ nào mình nhớ nhầm? Nếu đúng mình nhầm thật và không có tools nào khác có chức năng đó thì đành "chơi" cách này vậy: Code:
$ wget -A.jpg -r -e robots=off -nd http://www.deskcity.com/
$ for f in *; do if [ `wc -c "$f" | cut -d" " -f1` -lt 102400 ]; then rm -fr "$f"; fi; done
 
Cái này của anh quanta chỉ lấy được mấy cái hình *-small.jpg ở trang chủ http://www.deskcity.com/) thôi. Và mấy cái này thì cũng đều nhỏ hơn 100 KB nên đều bị xóa hết. Còn mấy cái ở mấy trang khác (không phải trang chủ http://www.deskcity.com/) thì nó để cái link theo dạng: *-small.jpgxxxxxxxxxxx nên bị cái câu lệnh ở trên nó reject rồi. Còn mấy cái ảnh "chất lượng cao" thì bỏ đi cái "-small" trong cái link image đó là được.]]>
/hvaonline/posts/list/30108.html#185831 /hvaonline/posts/list/30108.html#185831 GMT
(Các soft Get All tài nguyên của 1 Site) Trục trặc ở site này !?

zerozeroone wrote:
Cái này của anh quanta chỉ lấy được mấy cái hình *-small.jpg ở trang chủ http://www.deskcity.com/) thôi. Và mấy cái này thì cũng đều nhỏ hơn 100 KB nên đều bị xóa hết. Còn mấy cái ở mấy trang khác (không phải trang chủ http://www.deskcity.com/) thì nó để cái link theo dạng: *-small.jpgxxxxxxxxxxx nên bị cái câu lệnh ở trên nó reject rồi. Còn mấy cái ảnh "chất lượng cao" thì bỏ đi cái "-small" trong cái link image đó là được. 
Cảm ơn 001. Mình cũng đã thử luôn -A "*.jpg*" -R "*-small.jpg*" luôn rồi nhưng không ăn thua. Lý do có lẽ nằm ở http://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html#Types-of-Files:
Note, too, that query strings (strings at the end of a url beginning with a question mark (‘?’) are not included as part of the filename for accept/reject rules, even though these will actually contribute to the name chosen for the local file. It is expected that a future version of Wget will provide an option to allow matching against query strings.  
Nên có lẽ bó tay với wget rồi, để thử mấy cái khác xem sao.]]>
/hvaonline/posts/list/30108.html#185870 /hvaonline/posts/list/30108.html#185870 GMT
(Các soft Get All tài nguyên của 1 Site) Trục trặc ở site này !? /hvaonline/posts/list/30108.html#185879 /hvaonline/posts/list/30108.html#185879 GMT (Các soft Get All tài nguyên của 1 Site) Trục trặc ở site này !? http://www1.deskcity.com/images/download/2565.rar http://www1.deskcity.com/images/download/2566.rar http://www1.deskcity.com/images/download/2567.rar ... http://www1.deskcity.com/images/download/3004.rar  ]]> /hvaonline/posts/list/30108.html#185889 /hvaonline/posts/list/30108.html#185889 GMT (Các soft Get All tài nguyên của 1 Site) Trục trặc ở site này !?

kamikazeq wrote:
@gamma95: list link bác nhiều ghê. Mà sao không thấy script vậy kìa? Trước đó mình có thấy nó gói các ảnh lại theo từng chủ đề thành file rar với pass là "deskcity.com" . Dùng IDM batch download lụm được cỡ 2.7 Gb file rar, không biết đủ chưa nhỉ .
http://www1.deskcity.com/images/download/2565.rar http://www1.deskcity.com/images/download/2566.rar http://www1.deskcity.com/images/download/2567.rar http://www1.deskcity.com/images/download/3004.rar 
 
Mò sao hay vậy? :D]]>
/hvaonline/posts/list/30108.html#185890 /hvaonline/posts/list/30108.html#185890 GMT
(Các soft Get All tài nguyên của 1 Site) Trục trặc ở site này !? /hvaonline/posts/list/30108.html#185911 /hvaonline/posts/list/30108.html#185911 GMT (Các soft Get All tài nguyên của 1 Site) Trục trặc ở site này !? Code:
1.
      #!/usr/bin/env python
   2.
      #coded by gamma95
   3.
      #Language: Python 2.5.1
   4.
      #usage: ./getlink.py
   5.
      import sys
   6.
      import os
   7.
      import urllib2
   8.
      import urllib
   9.
      _listurl = []
  10.
      _url = "http://www.deskcity.com/details/picture/"
  11.
      _egg = "http://www.deskcity.com"
  12.
      for i in xrange(0, 3009):
  13.
              _listurl.append(str(_url) + str(i) + ".html")
  14.
      #print _listurl
  15.
      for _line1 in _listurl:
  16.
              #try:
  17.
              req = urllib2.Request(_line1)
  18.
              try:
  19.
                      response = urllib2.urlopen(req)
  20.
              #except:# urlError, e:
  21.
              #       continue
  22.
                      the_page = response.readlines()
  23.
                      for _line2 in the_page:
  24.
                              a = _line2.find("src=\"/picture/image_url")
  25.
                              b = _line2.find("-small.jpg")
  26.
                              if a<> -1 and b <> -1:
  27.
                              #print _line2[a+5: b]
  28.
                                      print _egg + _line2[a+5: b] + str(".jpg")
  29.
                      #break
  30.
              except:# urlError, e:
  31.
                      continue
  32.
              #break
  33.
      exit()
Cái này hả ?]]>
/hvaonline/posts/list/30108.html#185914 /hvaonline/posts/list/30108.html#185914 GMT
(Các soft Get All tài nguyên của 1 Site) Trục trặc ở site này !? /hvaonline/posts/list/30108.html#185917 /hvaonline/posts/list/30108.html#185917 GMT