Golang
主页 > 脚本 > Golang >

go colly 爬虫实现示例介绍

2022-10-01 | 佚名 | 点击:

贡献某CC,go源码爬虫一个,基于colly,效果是根据输入的浏览器cookie及excel必要行列号,从excel中读取公司名称,查询公司法人及电话号码。并写回到excel中指定行。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

package main

import (

   "bufio"

   "fmt"

   "github.com/gocolly/colly/debug"

   "github.com/gocolly/colly/extensions"

   "github.com/xuri/excelize/v2"

   "net/url"

   "os"

   "runtime"

   "strconv"

   "time"

)

import "github.com/gocolly/colly"

var (

   cookies string

   tempUrl string

   tempGongSiName string

   tempI int

)

func main() {

   //要处理的文件全名

   var fileName string

   //列的名称

   var namelie string

   //开始行号

   var startNum int

   //结束行号

   var endNum int

   var personLie string

   var phoneLie string

   fmt.Println("请输入浏览器cookies 在浏览器 开发者模式F12,情况下找到控制台(consol) 输入(注意,Cookie中如果有 HttpOnly的需要在开发工具中将HttpOnly取消掉,然后再执行后面命令):document.cookie  即可,然后复制出来! 右击,复制字符串内容")

   //fmt.Scan(&cookies)  //此行遇到空格会 默认输入完毕了,所以不能用它

   reader := bufio.NewReader(os.Stdin)

   res, _, err := reader.ReadLine()

   if nil == err {

      cookies=string(res)

   }else{

      fmt.Println("读取cookie错误 error:", err)

      return

   }

   //fmt.Println("输入的cookie是:"+cookies)

   fmt.Println("请输入文件全路径:(字符串类型)")

   fmt.Scan(&fileName)

   fmt.Println("请输入Excel要查询公司名称列的字母(字母大写):")

   fmt.Scan(&namelie)

   fmt.Println("请输入Excel指定列的第一个行号(数字类型):")

   fmt.Scan(&startNum)

   fmt.Println("请输入Excel指定列的最后一个行号(数字类型):")

   fmt.Scan(&endNum)

   fmt.Println("请输入Excel联系人的所在列的字母(字母大写):")

   fmt.Scan(&personLie)

   fmt.Println("请输入Excel联系电话所在列的字母(字母大写):")

   fmt.Scan(&phoneLie)

   //输出所有输入的信息,验证正确

   //fmt.Println(fileName,namelie,startNum,endNum,personLie,phoneLie)

   f, err := excelize.OpenFile(fileName)

   if err!=nil {

      fmt.Println(err)

      return

   }

   c:=initCollector(f,personLie,phoneLie)

   //上面打开的工作簿记得关闭吆。

   defer func() {

      // 关闭工作簿

      if err := f.Close(); err != nil {

         fmt.Println(err)

      }

   }()

   for i:=startNum;i<=endNum;i++{

      // 获取工作表中指定单元格的值

      cell, err := f.GetCellValue("Sheet1", namelie+strconv.Itoa(i))

      if err != nil {

         fmt.Println("读取第"+strconv.Itoa(i)+"行出错!")

         return

      }else{

         fmt.Println("开始抓取:"+cell+"  数据")

         tempGongSiName = cell

         tempI = i

         visitUrl(c)

         time.Sleep(1*time.Second)

      }

   }

   fmt.Println("-------------亲爱的,程序成功执行完毕。--------我要喝咖啡,我要吃肉肉------!")

}

///初始化收集器

func initCollector(f *excelize.File,personLie string,phoneLie string,) *colly.Collector {

   c := colly.NewCollector(colly.MaxDepth(1), colly.Debugger(&debug.LogDebugger{}))

   extensions.RandomUserAgent(c)                              // 使用随机的UserAgent,最好能使用代理。这样就不容易被ban

   c.SetProxy("socks5://127.0.0.1:7890")

   c.OnError(func(response *colly.Response, err error) {

      fmt.Println("---->onError  --------爬取出错了"+err.Error())

      runtime.Goexit()

   })

   c.OnResponse(func(response *colly.Response) {

      fmt.Println("---->onResponse")

   })

   c.OnXML("table", func(element *colly.XMLElement) {

      fmt.Println("---->onXML")

   })

   c.OnRequest(func(r *colly.Request) {

      r.Headers.Set("Cookie",cookies)

      r.Headers.Add("referer", tempUrl)

      r.Headers.Add("sec-fetch-mode", "cors")

      r.Headers.Add("sec-fetch-site", "same-origin")

      r.Headers.Add("accept", "text/javascript, application/javascript, application/ecmascript, application/x-ecmascript, */*; q=0.01")

      r.Headers.Add("accept-encoding", "gzip, deflate, br")

      r.Headers.Add("accept-language", "en,zh-CN;q=0.9,zh;q=0.8")

      r.Headers.Add("X-Requested-With", "XMLHttpRequest")

   })

   c.OnHTML("tr:first-child", func(e *colly.HTMLElement) {//拿到查询的第一条数据。

      fmt.Println("---->onHtml---获取成功!")

      //拿到第一条的公司主要信息。

      //fmt.Println("---->"+e.DOM.Find(".relate-info").Text())

      sellectEle := e.DOM.Find(".relate-info")

      //最终查询出来的人

      name:=sellectEle.Find("div:nth-child(1)").Find("div>span").First().Find("a").Text()

      //最终查询出来的电话

      phone:=sellectEle.Find("div:nth-child(2)").Find("div>span").First().Find("span>span").Find(":nth-child(2)").Text()

      //fmt.Println("--->>>"+name)

      //fmt.Println("--->>>"+phone)

      f.SetCellValue("Sheet1", personLie+strconv.Itoa(tempI), name)

      fmt.Println("将"+tempGongSiName+"人名 ("+name+") 写入  "+personLie+strconv.Itoa(tempI))

      f.SetCellValue("Sheet1", phoneLie+strconv.Itoa(tempI), phone)

      fmt.Println("将"+tempGongSiName+"电话 ("+phone+") 写入  "+phoneLie+strconv.Itoa(tempI))

      f.Save()

   })

   c.OnScraped(func(response *colly.Response) {

      fmt.Println("onScraped")

   })

   return c

}

//访问给定名称

func visitUrl(c *colly.Collector){

   tempUrl:="https://www.xxx.com/web/search?key="+url.QueryEscape(tempGongSiName)

   c.Visit(tempUrl)

}

原文链接:https://juejin.cn/post/7148752862388944926
相关文章
最新更新