先看成品: 一、Typecho图片站: http://typecho.coding.ee/ 下边有小白教程,可以自己搭建,我相信只要你会复制粘贴、熟悉宝塔、typecho都能搞定 Java写的多线程采集、多线程下载、导入typecho、Beauty图片站、导入beauty都开源了 开源地址:https://dev.tencent.com/u/iht —————-新手教程——————– 这里用的是宝塔linux面板,1.先安装网站;2.再导入数据到网站3.最后下载图片,把图片文件夹/developer/img移动到网站的根目录 ————-搭建Typecho图片站教程: 按照正常流程装个typecho网站,这个都不会就别玩了,也别问我 下载这个: http://drive.coding.ee/typecho-20190101-6-20210407.zip 解压后里边有3张表,导入到数据库之后网站的数据就OK了,刷新网站页面就能看到 ————–搭建beauty图片站教程,不搭建beauty图片站的可以跳过这一段: 因为是用Java写的,需要安装tomcat服务器,这个简单,宝塔点点鼠标就行了 下载网站程序: http://drive.coding.ee/Beauty.war 解压到网站根目录,解压之后看到3个文件夹就对了 ——————–下载图片————– 到这里我们的网站已经搭建好了,就差下载图片了,很简单,复制粘贴下边的命令就行,带宽小的话建议选择8线程的,100M以上可以试试16线程的 【【如果你只搭建typecho而不搭建beauty的图片站】】,用这个命令就行,线程二选一:
复制代码 16线程下载图片命令:
复制代码 【【如果你搭建beauty】】,用下边的命令:
复制代码 16线程下载图片命令:
复制代码 我们的图片下载到/developer/img这个文件夹下了,复制SSH会话,cd /developer/img 就能看到, ——————————————————— 特别感谢@我是一个大水怪 (提供了多线程的代码,perfect) win下的下载教程就不放出来了,不做站下载下来干什么 |
网友回复:
注册: 上边的数据导入后,目前打开网站看到的图是比较老的,质量不咋样, 可以重新导入了几份数据,按需替换: 数据库里的typecho_contents表: 2019年1月1日开始发布,每天12套图:http://drive.coding.ee/20190101-12.zip 2018年8月8日开始发布,每天6套图:http://drive.coding.ee/20180808-6.zip 2017年7月15日开始发布,每天3套图:http://drive.coding.ee/20170715-3.zip beauty数据库里的contents表: 2018年5月5日开始发布,每天6套图:http://drive.coding.ee/20180505-6.zip 搭建Beauty图片站最少要512M内存的服务器,最好是1GB内存或者更大的内存 有把typecho导入到wordpress的程序,有需要的自己去搜下typecho2wordpress 忘了说了,图片有17GB左右,看看自己的小鸡磁盘够不够吧
揽月: 有爬完的大佬提供下载吗?
揽月: 火前刘明
pxy185: 留名+++1
coolsd: 火前留名
小屠夫: 真会玩
kougui: 大佬牛皮,马上就用我的超级大盘鸡去试试
揽月: 复制粘贴,回车即可
shijinqiang: 赞,66666
dengdeng: 已经开始下载了,谢谢楼主
注册: 采集的命令有吗?这个好像只是下载的命令?是要先采集信息后下载吧?
注册: 等着吃现成的
mclover: 不用,我已经采集好了,晚点把数据放出来,你直接复制粘贴命令就行,最后一行就是运行采集程序了,你看看窗口
lunatic: 自己挂小鸡采了一份 现在对大佬导入typecho的程序感兴趣
揽月: 我之前开源过,不过那代码比较难看懂,晚点我放出来
kougui: 大佬又来送福利了
揽月: 大佬厉害, 坐等喝汤
free9901: 大佬,运行的时候报错,java.net.SocketTimeoutException: connect timed out at java.net.PlainSocketImpl.socketConnect(Native Method) at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:339) at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:200) at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:182) at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392) at java.net.Socket.connect(Socket.java:580) at sun.security.ssl.SSLSocketImpl.connect(SSLSocketImpl.java:628) at sun.net.NetworkClient.doConnect(NetworkClient.java:175) at sun.net.www.http.HttpClient.openServer(HttpClient.java:463) at sun.net.www.http.HttpClient.openServer(HttpClient.java:558) at sun.net.www.protocol.https.HttpsClient.
vpshost: 绝大部分都能下载吧,这是超时错误,我设置了500毫秒,没有相应就忽略,全都报错的话可能是ip被屏蔽
mclover: 好吧,可能是这样的。。
注册: 等待下载好的大佬分享
注册: win的来一发大佬
wifitry: 大佬。求个win的采集。谢谢
svd1983: 多线程不代表速度快效率高,网络资源多线程下载快的缘故是单条连接的速率限制,才用多线程 分段下载后整合才可以达到那个速度,你没有做分段,线程数匹配核心数就行,多了反而引起频繁上下文切换拉低系统效率
揽月: win还得装JDK,配环境呢,你要的话我给打包一份代码
helwo: 笔记本双核4线程,实际情况是16线程就比8线程快很多
生蚝QAQ: 运行后一直提示 java.net.SocketTimeoutException: connect timed out 是失效了?
揽月: 我设置了超时时间为500毫秒,小鸡是不是延迟太高了
揽月: hosthatch瑞典大盘鸡啊
giano: 这网站似乎不赚钱了
注册: 上边的数据导入后,目前打开网站看到的图是比较老的,质量不咋样, 可以重新导入了几份数据,按需替换: 数据库里的typecho_contents表: 2019年1月1日开始发布,每天12套图:http://drive.coding.ee/20190101-12.zip 2018年8月8日开始发布,每天6套图:http://drive.coding.ee/20180808-6.zip 2017年7月15日开始发布,每天3套图:http://drive.coding.ee/20170715-3.zip beauty数据库里的contents表: 2018年5月5日开始发布,每天6套图:http://drive.coding.ee/20180505-6.zip 搭建Beauty图片站最少要512M内存的服务器,最好是1GB内存或者更大的内存 有把typecho导入到wordpress的程序,有需要的自己去搜下typecho2wordpress 忘了说了,图片有17GB左右,看看自己的小鸡磁盘够不够吧
注册: 这网站之前权重老高了,早就做了app收vip费用,app里也有广告
揽月: 图是下好了,标题好像没了
pxy185: 放心,我采集的怎么可能少了这些呢,标题,分类,标签这些都有的,待我放出导入typecho和beauty数据库的程序
coolsd: 14.9G下不动了
小屠夫: 大佬牛逼
揽月: 大佬威武
ApkB: 啥时候下载的,如果网络延迟超过500毫秒默认忽略掉图片不下载的,但是你这下载了那么多不应该啊
揽月: 今天上午下载的
fyang: 大佬有打包版下载么
注册: 有一会儿阿里云好像断流了,真坑,删掉重新下载吧 rm -rf /developer mkdir -m 775 -p /developer/img/mm131/ cd /developer wget http://drive.coding.ee/mm131-16-thread.jar java -jar mm131-16-thread.jar复制代码
注册: 估计自己直接下载比打包下载要快,我没大盘鸡就不打包分享了
揽月: 数据我放出来,重新看下帖子吧
揽月: img-typecho.coding.ee 用的是楼主的服务器嘛
揽月: 马克
luxun: 是的,hostdare,扔上去呗,也只用来富强
info: 我想用 老哥的 ty程序 +sql 做个玩玩 想把图片保存到我的服务器 图片能打包一份嘛
揽月: 厉害了大佬
luxun: 出个教程如何导入ty里面呢??
百毒不侵: 会Java的就会运行啊,不会Java的还不如我帮忙导入算了,两分钟的事
注册: 坐等大佬更新beauty数据库和套图
注册: 谢谢楼主了 帮我搞好了。。。。现在已经可以正常访问拉!
godstar: 这样啊,谢谢解释
myseil: 感谢大佬分享
606437: 谢谢分享!!!
.com: 按下 Shift + 鼠标右键,在此处打开Powercell窗口? Powershell 窗口~
faint32: 没注意看,发音都差不多,不要在意这些细节
新来的: 大佬问下用那个指定的WIN下载完了怎么导入TY
揽月: 完全搞不懂应该怎么做,对java一窍不通。所以我用的py下载到了本地。但是问题是下载到本地是很简单,发布却是问题。我不知道要怎么发布。
nextfriend: 发布。。。你采集数据了吗就发布。我这个有采集、下载、导入typecho数据库3个主要功能。下载已经简化了,看我帖子跟着做就能下载了。下载完后可以找我帮忙导入typecho的数据库
注册: 就是想知道, 大佬爬了多少G?
注册: 下载了16.5GB,我设置了超时时间为500毫秒,如果一套图的前两张图片都超时没下载到就忽略这套图不管了。所以如果服务器延迟太高就会下载不到图片
墨墨墨: 大佬你这个站,coding.ee这个用的什么cdn啊,非常快哦
揽月: 腾讯云,主要是typecho轻量,速度快
mclover: 再轻量图片也不轻的,国内访问还是不错
揽月: 图包在哪下载 没有看到
mclover: 再看看帖子,复制粘贴几行命令下载到你小鸡里,win就看置顶
vpshost: 坐等楼主typecho 整站数据包下载
揽月: 不会java就找我导入typecho
mikj521: 明天吧 先谢了
注册: debian 9 没有 sudo apt install java-1.7.0-openjdk.x86_64 wget
注册: sudo apt-get install openjdk-8-jre
坏坏: java.io.FileNotFoundException: /developer/img/mm131/gfsitfkd/2.jpg (No such file or directory)
坏坏: 战略性mark
坏坏: 成功下载图片+1, URL: 成功下载图片+1, URL: 成功下载图片+1, URL: 感觉人家加了防盗链了
861688: 你看看实际下载的啊,直接用浏览器打开肯定是这样的;防盗链都破不了还玩什么
坏坏: 2019-06-12_225125.png (86.33 KB, 下载次数: 2) 2019-6-12 22:53 上传 点击文件名下载附件 我看了一下服务器,,,,一张图都没有 不知道图放在哪里
揽月: 你有没有/developer/img/目录啊,有没有给写权限啊
坏坏: 估计没有权限,,,但是硬盘一直在写入,数据在写入 我是在用户文件夹里面,用了sudo 一张图都没有看到 要不要关了,重新写
揽月: 参照这个,给/developer/img/mm131/ 目录写权限 mkdir -m 775 -p /developer/img/mm131/ cd /developer yum -y install java-1.7.0-openjdk.x86_64 wget wget http://drive.coding.ee/mm131-16-thread.jar java -jar mm131-16-thread.jar复制代码
注册: 我搞错了,,,你的是/developer 我放在用户目录,,,,/home/gg/developer
注册: 会下载到 /developer/img/mm131/ 下边
坏坏: 6.jpg (15.17 KB, 下载次数: 0) 2019-6-12 23:08 上传 点击文件名下载附件 来了….正在下载
揽月: 没有水印就已经很不错了,在手机上看的话还行,做图片站不可能搞一张几M的,访客加载都好久谁会去看
坏坏: 爬的好,谢谢
揽月: 宝塔怎么部署
坏坏: 不错哦
wkzw: 城会玩
hong2351: 重新看帖子就行
lazy: 大盘鸡可以试试了,下载超时设置成了2秒
注册: 程序已经开源了,不过是Java写的
注册: 超时时间设置成了2秒了,下载应该没问题了
揽月: 已经更新了,看帖子就行
揽月: 发布问题重新看帖子
揽月: 战略mark Typecho 太难用了,还是wordpress好用
揽月: 重新看帖子,我已经导入一份了,哪来用就行
坏坏: 已经分享了,重新看下帖子
揽月: 可以的楼主,typecho主题是什么
揽月: 我那是自带的,需要什么主题换一个就行
盯裆猫: 装第一个成功了,在下载,http://mm.54mjj.com/ 装第二个出现504 504 Gateway Time-out http://mm131.54mjj.com/ beauty装这个,504
注册: 你们都是不怕吃公家饭的人
注册: 重启下tomcat服务器试试
mslxd: 好的,我在下载,稍后重启下,对了,后期的采集更新有吗?
揽月: 程序已经写好了,随时可以采集,数据目前得全部替换,这个最简单;下载可以只下载新增的
cxd44: 我记得你之前有一个主题
揽月: https://github.com/chakhsu/pinghsu
盯裆猫: java不会,宝塔搞了半天,按照教程来也网站也没法打开,不过图片已经在下载了
揽月: 大佬,采集中断了,再运行是继续采集还是要重新采一次啊?
pxy185: 看到用Java写的就让了
opear2008: 很棒!刚需!mark!
注册: 喜欢的明星的图片,我觉得看起来还是有意思,可是不认识的女人都不会动,这图片要来是干嘛用呢。。。?
注册: 那是下载图片吧,重新来一次呗,会覆盖掉之前下载的
winwin50: 这新手教程都看不懂的话建议别玩网站了
揽月: typecho的话就替换掉3张数据库表就行,把原来的删除了,再导入新的
揽月: 才看到 下载速度不错呀
揽月: 源站上了CDN了,带宽够
airinf: 好的,谢谢大佬,下次弄个screen吧,中途断网了
揽月: 什么是screen,下载的机器不断网就行
opear2008: 远程会话,可以关闭窗口断网,上次都快下载完了,结果断了一下网,又要重下
揽月: yum install screen screen -S xx screen -r xx
注册: 怎么下载到16.35就不动了
注册: 看看id4963套图就对了,我也就下了16.5G,差不多了
airinf: 但是看到jar还在跑
揽月: 我也不知道哪里出了问题,程序逻辑应该是没问题的,一套图下载不了的话最多浪费4秒钟就忽略不管这套图了。16.35GB差不多了,也就少数图片没下载到吧
airinf: 收到,谢谢谢谢~
揽月: 好了。搭建完成,之前不知道哪里出了问题
godstar: 应该是没有问题 我看到4988了,应该还在出新图;另外能否做个持续下的,顺带直接进库免得定时rm,不是更好?
pxy185: 4989就结束了,持续下载的话也行,数据库加个字段,比如下载成功就设为1,下次再下载没有下载过的。不知道你说的直接进库是啥,导入typecho的数据库的话需要配置好typecho数据库的信息的,这个会Java的看完的代码稍微改改就行。放出新手的新手教程步骤是比较简单的,不用再配置啥的
airinf: 标记一下
揽月: 没有露点。。差评
注册: 数据库导入是乱码,难道你不是用的UTF8?
注册: 当然是utf-8,好像就你出现这问题了
kenutu: 用宝塔还原有问题 用phpmyadmin 没有问题了
揽月: 打开速度都不错
kenutu: 真不错,666 支持一个 没有大盘鸡啊
vcred: 楼主威武!
qqab: 经常下载到3000左右套就卡住了,重复了好几次,那下载的图片是不是也重复了?
Needforhost: 会被覆盖掉
cxd44: 终于搞完了,谢谢大佬
揽月: 马克
注册: 每次都下到3000多卡住
注册: 大姐姐 大家来 顶一下 www点meimeitu点ml
)(: 大佬 运行完下载代码之后就坐等完成么?这样是不是就可以关闭了啊
大姐姐: 大佬弄个WordPress的啊
fifalan: 可以关啊,不要Ctrl +C 就行,然后看看对应文件夹下有没有图片,看你网络了
zhuyun9999: 看过一眼wordpress的数据库,感觉比较复杂就没搞了,有从typecho迁移到wordpress的wordpress插件,你搜一下typecho2wordpress
揽月: 一个小时过去了 文件夹都没创建…/developer/img: No such file or directory
揽月: 我先试试java版本的
fifalan: 截图中你回车没啊,回车然后看ssh窗口啊,有输出的
zhuyun9999: 哦 谢谢
注册: 收了个大盘鸡过来,大佬的网址好像都挂了
注册: 现在好了,演示站删了,下载和采集的还可以用
爱吃醋的醋醋: 能自动采集么
揽月: 目前不能,暂时没有加定时采集功能的计划