分享
 
 
 

.NET从优酷专辑中采集所有视频及信息(VB.NET代码)

王朝学院·作者佚名  2010-01-12
窄屏简体版  字體: |||超大  

夜闻香原创,转载请保留此信息,万分感谢!

博客: http://clso.cnblogs.com/

主页: http://cleclso.cn/

QQ:315514678 E-mail:clso#qq.com

欢迎技术交流!

因为想做一个视频点播类的网站,所以开始研究视频采集。

这个方法就是提取优酷的专辑ID,然后一个个ID进行循环采集网页代码,从中提取title标签和VID,没什么技术含量。=..=

采集中应用.NET中的HttpWebRequest和HttpWebResponse类,代码分析用了正则表达式。

这个代码效率不是很好,一个网页的解析时间在0.5~2秒之间,不适合大量采集。也许将它转换成JavaScript速度会快一点吧。

暂时就研究这么多,代码直接发出来给大家共享一下。

代码VB.NET,新建一个窗体frmMain,添加一个TextBox,一个ListBox,两个Button,复制下面的代码:

Imports System.Net

Imports System.IO

Imports System.Text

Imports System.Text.RegularExpressions

Public Class frmMain

Structure VList

Dim id As Integer

Dim title As String

Dim vid1 As String

Dim vid2 As String

Overloads Function ToString() As String

Return String.Format("{0}:<{1}> [{2}]", id, title, vid1)

End Function

End Structure

Dim myList As New List(Of VList)

Private Sub Button1_Click(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles Button1.Click

' 防止重复创建变量

Dim wr1 As HttpWebRequest

Dim wr2 As HttpWebResponse

Dim ret As String

Dim reg As Match

Dim g As Group

Dim preVid As String = "" '上一个VID

Dim nowid As Integer = 0 '当前的视频集数

Dim listUrl As String = TextBox1.Text '获取专辑URL,如 http://www.youku.com/playlist_show/id_2350764.html

Dim tarUrl As String = "http://v.youku.com/v_playlist/f{0}" '{0}ListID

reg = Regex.Match(listUrl, "playlist_show/id_(\d+).*\.html")

If Not reg.Success Then

MsgBox("专辑列表提取失败!")

Exit Sub

End If

g = reg.Groups(1)

tarUrl = String.Format(tarUrl, g.Value) & "o{1}p{0}.html" '{0}集数 {1}排序

wr1 = HttpWebRequest.Create(TextBox1.Text)

wr2 = wr1.GetResponse

ret = New StreamReader(wr2.GetResponseStream, Encoding.GetEncoding(wr2.CharacterSet)).ReadToEnd

reg = Regex.Match(ret, "<title>(.+) - 专辑 - 优酷视频</title>")

If Not reg.Success Then

MsgBox("专辑名称提取失败!")

Else

g = reg.Groups(1)

MsgBox("专辑名:《" & g.Value & "》")

End If

Do

' 从Web流中获取页面文本

wr1 = HttpWebRequest.Create(String.Format(tarUrl, nowid, "0")) '按倒序方式查找视频

wr2 = wr1.GetResponse

ret = New StreamReader(wr2.GetResponseStream, Encoding.GetEncoding(wr2.CharacterSet)).ReadToEnd

'TextBox2.Text = ret

' 创建一个临时视频列表变量

Dim nlist As New VList

nlist.id = nowid '获取ID

' 获取videoId

reg = Regex.Match(ret, "var\s+videoId\s*=\s*""(\d+)""\s*;")

If Not reg.Success Then Exit Do

g = reg.Groups(1)

' 如果VID等于上一个VID最退出

If g.Value = preVid Then Exit Do

nlist.vid1 = g.Value

' 获取videoId2

reg = Regex.Match(ret, "var\s+videoId2\s*=\s*""((\w|=)+)""\s*;") '"var\s+videoId2\s*=\s*""(\w+)""\s*;")

If Not reg.Success Then Exit Do

g = reg.Groups(1)

nlist.vid2 = g.Value

' 获取标题

reg = Regex.Match(ret, "<title>(.+) - (.+) - 视频 - 优酷视频 - 在线观看 - </title>")

If Not reg.Success Then

nlist.title = "{名称查找错误}"

Else

g = reg.Groups(2)

nlist.title = g.Value

End If

' 收尾工作

myList.Add(nlist) '添加到总列表中

preVid = nlist.vid1 '记录最后一个VID

wr2.Close()

Me.Text = nowid & " : 处理完成!"

nowid += 1

Loop

wr2.Close()

MsgBox(nowid & " 个视频全部采集处理完成!")

Button2_Click(sender, e)

End Sub

Private Sub Button2_Click(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles Button2.Click

ListBox1.Items.Clear()

For Each ls As VList In myList

ListBox1.Items.Add(String.Format("{0}:<{1}> [{2}]", ls.id, ls.title, ls.vid1))

Next

myList.Clear()

End Sub

End Class

第一次准备自己写代码做网站,有没有大哥带带我,数据库好麻烦啊。>_<

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有